우리는 대게 excel(xsl),txt 데이터에서 우리는 정보를 얻습니다.
txt는 데이터를 받으면 헤더부분이나 따로 떼어두는 경우도 있기 때문에.. 간혹 사용한다고 합니다.
그리고 csv파일로 바꾸는 이유는 엑셀파일에 걸려있는 함수(ex. sum, mean... 개인 function)등 다 제외시키고 행과열의 색깔 주석 등 모두 제외시켜서 용량을 가볍게 만들수 있기 때문이죠.
만약 글자가 깨진다면 UTF-8이 아닌 (CP)949로 바꿔보자. 우리는 원(\)으로 구분했으니 구분 기호로 분리됨으로 표시해두고 다음으로 넘어가자.
\는 따로 체크박스가 없으니 기타로 체크하고 \를 표시해주면 표형태로 나타난다. 그러면 다음-> 마침.
이제 csv파일로 변경. 좌측상단 파일 탭 클릭-> "다른이름으로 저장"
파일을 찾아서 우클릭->속성->위치
노란부분을 드래그 복사해줍니다.
그리고 파이썬 코드에
import pandas as pd 해주시고,
주소를 "" 안에 복사해줍니다. 그리고 "\" 를 모두 "/"로 변경
마지막에 /파일이름.csv로 마무리해주시고, 우리는 csv파일에 한글을 썼으니 인코딩을 해줘야합니다.
저는 cp949로 인코딩했습니다. cp949로 안되신다면 UTF-8로 해보시길 바랍니다. 둘 중에 하나는 거의 된다고 보시면 됩니다.(사실 excel에서 csv파일로 저장할 때 csv칸이 두개가 있습니다. 한쪽이 csv(쉼표로분리,UTF-8) 이렇게 되어있을겁니다. 이걸로 했다면 UTF-8로 하셔야 할겁니다.)
맨위에서 헤더(colnames)가 없는경우도 있다고 했죠?
그런경우에는 아래와 같이 하시면 됩니다.
헤더였던 과목,학점,난이도가 행으로 편입된 모습입니다. R에서는 header=T/F로 헤더가 나뉘었죠.
'데이터 전처리 > python' 카테고리의 다른 글
날짜,시간 데이터 전처리 (feat. Series,Dataframe) (0) | 2024.04.19 |
---|---|
파이썬 범주화,결측치 처리기법 (0) | 2024.04.17 |
파이썬 인덱싱 기법,리스트,배열,딕셔너리,데이터프레임 핸들링 (0) | 2024.04.17 |
파이썬 기초-2(배열 추가제거,배열의결합,딕셔너리,딕셔너리 추가제거) (1) | 2024.04.12 |
파이썬 기초-1(인덱싱,print문,대체,리스트 추가제거) (0) | 2024.04.12 |