본문 바로가기

데이터 전처리/python

(10)
이미지 전처리 전과정 위 이미지를 전처리 해보겠습니다.전처리 전 크기 8679 바이트입니다. #requirements.txt : 작업 환경#pip freeze > requirements.txt : 자신의 환경에 있는 패키지를 모두 저장 해 둔 txt파일pip freeze > requirements.txt pip install -r requirments.txt환경구성은 위 requirements.txt파일을 이용하겠습니다.  import matplotlib.pyplot as pltimport cv2import numpy as npimport pandas as pdimport os#본인 dir 경로가 맞지 않다면 체크해주세요.#####현 경로 확인os.getcwd()#경로 변경 코드os.chdir('path')#경로 존재하는지 ..
동영상 전처리 import cv2import matplotlib.pyplot as pltimport numpy as npimport osvideo_path = 'C:/Users/PJS/Documents/study/전공파일/4학년/데이터전처리/240528/image/AI.mp4'cap = cv2.VideoCapture(video_path)# 비디오가 올바르게 열렸는지 확인#if not ~ : False일 때 실행되는 코드임if not cap.isOpened(): print("Error: Could not open video.") exit()#또는 cap.isOpened() #자체적으로 불대수 형태로 반환 해줌.*cap.isOpened(): 비디오가 열렸는지 T/F 로 반환한다.image_folder = 'im..
이미지전처리2 - 노이즈 제거, 이미지 정규화, Gray Scale, masking, flip, 색 대비, 조명변화 https://pastryofjsmath.tistory.com/36 이미지 전처리1이미지 전처리 하기에 앞서 컴퓨터에서 이미지를 읽는 방법을 알아야합니다.이미지 데이터를 픽셀이란 작은 점들의 집합으로 컴퓨터는 읽습니다.각 픽셀마다 색과 밝기의 정보가 있는것이죠.pastryofjsmath.tistory.com위 '이미지 전처리1'과 이어집니다.아래는 지난시간 리뷰입니다.아래는 랜덤이미지를 만들 때 사용한 함수에 대한 설명입니다. 여기까지가 전 시간에 했던 '이미지 전처리1'입니다.Blur1_image = cv2.GaussianBlur(RGB_image,(21,21),0)Blur2_image = cv2.medianBlur(RGB_image,5)plt.subplot(1,3,1)plt.imshow(Blur1_i..
이미지 전처리1 - RGB, HSV, resizing 이미지 전처리 하기에 앞서 컴퓨터에서 이미지를 읽는 방법을 알아야합니다.이미지 데이터를 픽셀이란 작은 점들의 집합으로 컴퓨터는 읽습니다.각 픽셀마다 색과 밝기의 정보가 있는것이죠. 게임으로 예시를 들어볼까요?서든어택이라는 게임 많이 아실겁니다. 이 게임은 게임자체에서 각 해상도별로 화면을 지원하지만 마우스 dpi 폴링레이트 지원률, fps 특성상 한 화면에 다 보여야 빠른반응이 가능하기에 여러 해상도가 있지만 제일 작은 해상도인 800*600을 사용합니다. 이미지가 뭉개져서 보이긴 하나 위의 장점이 더 크기에 800*600을 사용하는 것이죠. 이때 800*600을 가로 800픽셀, 세로600픽셀을 의미합니다. 이제 이미지처리하는데 있어 필요한 패키지를 설치해주어야 합니다.주피터 노트북을 사용하시는 분들은..
날짜,시간 데이터 전처리 (feat. Series,Dataframe) *위의 파일을 이용하여 날짜와 시간 데이터 전처리하였습니다.import pandas as pdimport numpy as np#df_merged_mean = pd.read_csv('파일위치주소',encoding='UFT-8 또는 CP949')주소가 어디인지 모르시는 분들은 아래의 글을 참고해주세요.https://pastryofjsmath.tistory.com/23csv->read.csv)" data-og-description="우리는 대게 excel(xsl),txt 데이터에서 우리는 정보를 얻습니다. txt는 데이터를 받으면 헤더부분이나 따로 떼어두는 경우도 있기 때문에.. 간혹 사용한다고 합니다. 그리고 csv파일로 바꾸는 이유는" data-og-host="pastryofjsmath.tistory.co..
파이썬 범주화,결측치 처리기법 A = { 'subject' : ["미적분학","선형대수학","해석학","정수론","수리통계학","수학을 위한 프로그래밍"], '평점' : [3.8,4.5,4.1,3.2,4.7,5], '학점' : [3,3,3,2,2,2],}df=pd.DataFrame(A)#결측치 처리.#1.결측치 행을 제거.#2.결측치를 mean,median등 어떤 함수로 채우는 방법df['점수'] = [88,97,79,95,94,np.NAN]#1.결측치 행 제거. df.dropna 사용.#물론 직접 df를 행,열을 조작하는거라 정말로 제거해주려면 df = df.dropna() 해줘야한다.df.dropna()아래는 수치형인 단일 컬(열)을 mean,median으로 결측치 처리해주는 방법입니다.#2.결측치를 mean,me..
파이썬 인덱싱 기법,리스트,배열,딕셔너리,데이터프레임 핸들링 각 인덱싱 기법과리스트의 추가(A.append(추가할 것),제거A.pop(위치))배열의 추가(np.append(배열,추가할 것),np.insert(배열,추가위치[이후에 들어가는 자리임],추가 할 것),제거(np.delete(위치))딕셔너리 key형태로 추가(A['key'] = [~]),제거(del A['key'])를 앞에서 포스팅 했습니다.한 번 더 복습하고 범주화,결측치 핸들링을 해보겠습니다.복습 내용은 캡처로 내용을 남겨두겠습니다.import numpy as np전화번호(지역번호),휴대폰번호 모두 앞에 '0'이 존재 한다. 이를 제대로 출력하기 위해 문자형으로 변환해주자.위의 print문을 각 리스트갯수만큼  출력해줄려면?for i in range(len(name)): print(('담당직원은 ..
파이썬 데이터프레임 불러오기(txt->csv->read.csv) 우리는 대게 excel(xsl),txt 데이터에서 우리는 정보를 얻습니다.txt는 데이터를 받으면 헤더부분이나 따로 떼어두는 경우도 있기 때문에.. 간혹 사용한다고 합니다.그리고 csv파일로 바꾸는 이유는 엑셀파일에 걸려있는 함수(ex. sum, mean... 개인 function)등 다 제외시키고 행과열의 색깔 주석 등 모두 제외시켜서 용량을 가볍게 만들수 있기 때문이죠. 만약 글자가 깨진다면 UTF-8이 아닌 (CP)949로 바꿔보자. 우리는 원(\)으로 구분했으니 구분 기호로 분리됨으로 표시해두고 다음으로 넘어가자.\는 따로 체크박스가 없으니 기타로 체크하고 \를 표시해주면 표형태로 나타난다. 그러면 다음-> 마침.이제 csv파일로 변경. 좌측상단 파일 탭 클릭-> "다른이름으로 저장"   파일을 ..