본문 바로가기
데이터 전처리/python

파이썬 데이터프레임 불러오기(txt->csv->read.csv)

by JSMATH 2024. 4. 12.

우리는 대게 excel(xsl),txt 데이터에서 우리는 정보를 얻습니다.

txt는 데이터를 받으면 헤더부분이나 따로 떼어두는 경우도 있기 때문에.. 간혹 사용한다고 합니다.

그리고 csv파일로 바꾸는 이유는 엑셀파일에 걸려있는 함수(ex. sum, mean... 개인 function)등 다 제외시키고 행과열의 색깔 주석 등 모두 제외시켜서 용량을 가볍게 만들수 있기 때문이죠.

txt 데이터
이 pc 더블클릭

 

모든 파일로 설정
글자가 깨지는지 확인

만약 글자가 깨진다면 UTF-8이 아닌 (CP)949로 바꿔보자. 우리는 원(\)으로 구분했으니 구분 기호로 분리됨으로 표시해두고 다음으로 넘어가자.

\로 구분

\는 따로 체크박스가 없으니 기타로 체크하고 \를 표시해주면 표형태로 나타난다. 그러면 다음-> 마침.

이제 csv파일로 변경. 좌측상단 파일 탭 클릭-> "다른이름으로 저장" 

 

다른이름으로 저장-> csv 선택하고 저장

 

파일을 찾아서 우클릭->속성->위치 

노란부분을 드래그 복사해줍니다.

그리고 파이썬 코드에

import pandas as pd 해주시고,

주소를 "" 안에 복사해줍니다. 그리고 "\" 를 모두 "/"로 변경

마지막에 /파일이름.csv로 마무리해주시고, 우리는 csv파일에 한글을 썼으니 인코딩을 해줘야합니다.

저는 cp949로 인코딩했습니다. cp949로 안되신다면 UTF-8로 해보시길 바랍니다. 둘 중에 하나는 거의 된다고 보시면 됩니다.(사실 excel에서 csv파일로 저장할 때 csv칸이 두개가 있습니다. 한쪽이 csv(쉼표로분리,UTF-8) 이렇게 되어있을겁니다. 이걸로 했다면 UTF-8로 하셔야 할겁니다.)

data frame 불러오기 성공

맨위에서 헤더(colnames)가 없는경우도 있다고 했죠? 

그런경우에는 아래와 같이 하시면 됩니다.

헤더였던 것이 행으로 들어감

헤더였던 과목,학점,난이도가 행으로 편입된 모습입니다. R에서는 header=T/F로 헤더가 나뉘었죠.