본문 바로가기
츄Log/끄적끄적

분석용 데이터 수집 및 모델링 -2. 데이터 전처리

by 츄츄🦭 2024. 6. 21.
728x90

 

수집한 데이터를 곧바로 분석하는 것은 불가능합니다.

따라서 분석이 가능하도록 데이터 추출, 결측치 처리, 이상치 제거, 분포 변환, 표준화, 카테고리화, 차원 축소와 같은 작업을 수행해야 합니다.

이러한 과정을 통틀어 데이터 전처리라고 합니다. 데이터 전처리를 어떻게 하느냐에 따라 분석 결과가 유의미한 결과를 도출할 수도 있고, 그렇지 않을 수도 있으며 좋은 성능의 모델을 만들 수도, 만들지 못할 수도 있습니다. 

 

전처리는 수작업으로 진행하며 자동화하는 것이 어렵기에 일반저긍로 분석 프로세스의 전체 실행시간 중 60~70%(많게는 90%)를 차지합니다. 

 

데이터 전처리는

결측치, 이상치, 중복데이터를 제거하여 데이터 왜곡을 없애고, 모델의 정확도를 높여줍니다.

 

데이터 전처리 방법.

* 데이터 타입의 일관성 : 함수를 통해 일괄적으로 데이터 타입을 변경합니다.

* 결측값 제거 : 결측값이 있는 행 또는 열을 제거하거나, 특정 값으로 채우거나, 대푯값으로 대체합니다.

* 이상치 제거 : 많은 방식이 있지만 대표적으로 데이터 분포를 이용하여 특정 범위 이외의 값을 이상치로 판단하고 제거합니다. 

 

728x90

'츄Log > 끄적끄적' 카테고리의 다른 글

Scavenger 적용  (0) 2024.06.30
이슈 발생시  (1) 2024.06.21
분석용 데이터 수집 및 모델링 -1. 요구사항  (0) 2024.06.21
Optional에 대하여  (0) 2024.06.21
OOM 발생시키고 CPU, Memory Usage 확인하기  (0) 2024.06.16