본문 바로가기
배우기/Python

Python_Pandas_DataFrame(결측치 제거)_2

by 인사잘해 2022. 4. 19.

안녕하세요!

 

판다스 라이브러리의 데이터프레임 결측치 제거입니다.

자세한 내용은 Documentation 에서 확인할 수 있습니다.

DataFrame.dropna(axis=0|1, how='any'|'all', thresh=int, subset=['컬럼명'], inplace=bool)

axis = 0 or 'index' | 1 or 'columns, default 0
how = 'any' | 'all', default 'any'
thresh = int, optional (결측치의 특정 개수 입력)
subset = ['컬럼명'], optional (2개 이상 컬럼 가능)
inplace = bool, default False

 

- DataFrame 사용 예시

df.dropna(axis = 0 | 1) # axis = 0, row / axis = 1, column
df.dropna(how = 'any') # 결측치가 한 개라도 있는 row 제거
df.dropna(how = 'all') # 전부 결측치인 row 제거
df.dropna(thresh = 1) # 결측치가 1개 이상인 row 제거
df.dropna(inplace = True) # 결측치 처리된 DataFrame을 덮어씌워 저장
df.dropna(inplace = False) # 결측치 처리된 DataFrame을 덮어씌워 저장하지 않음, 따로 저장해야 함
df.dropna(subset = ['컬럼명']) # 해당 컬럼에서 결측치가 있는 row 제거

이전 글에서 작업하던 서울시 아파트 실거래 데이터에서 결측치가 있는 컬럼을 확인했습니다.

subset 조건으로 컬럼을 지정하여 결측치를 가진 row를 제거해 보았습니다.

결측치를 제거한 데이터프레임에서 사용할 컬럼을 지정하여

새로운 데이터프레임을 만들었습니다.

하고 보니 df.drop(['컬럼명'], axis=1) 로 삭제할 컬럼만 쓰는 것이 훨씬 나을텐데

왜 이렇게 했을까 하는 생각이 듭니다.

 

다음 글은 데이터프레임에 index를 초기화하고

위도와 경도가 있는 excel 파일과 병합하는 작업을 기록할 예정입니다.

 

 

데이터 출처 : http://rtdown.molit.go.kr/

 

 

- 이전 글

2022.04.14 - [배우기/Python] - Python_Pandas_DataFrame(파일 불러오기, 데이터프레임 정보 확인)_1

댓글