데이터 전처리


데이터 전처리는 분석 목적에 맞게 데이터를 정제·가공하는 과정이다. 결측치, 이상치, 오류, 불필요한 변수 등을 처리해 데이터 품질을 높이고, 정확한 분석과 예측 모델링을 위한 필수 단계로 여겨진다.

1. 데이터 전처리의 필요성과 주요 단계

  • 데이터의 품질이 분석 결과와 모델 성능에 직접적인 영향을 준다.
  • 결측치와 이상치 처리, 데이터 변환, 변수 선택 등 다양한 기법이 필요하다.

2. 데이터 전처리의 주요 기법

단계 설명 예시
결측치 처리 누락값 대체, 삭제 등 평균/중앙값 대체, 행 삭제
이상치 처리 비정상적 값 탐지 및 처리 박스플롯, Z-score
데이터 변환 정규화, 표준화, 로그변환 등 Min-Max, Z-score, log변환
변수 선택/추출 불필요 변수 제거, 파생변수 생성 Feature selection, PCA

3. 데이터 전처리의 실제 절차

  1. 결측치와 이상치 탐색 및 처리
  2. 데이터 변환(정규화, 표준화 등) 적용
  3. 불필요한 변수 제거, 파생변수 생성
  4. 최종 데이터셋 구성 및 품질 점검

4. 용어 정리

  • 정규화/표준화: 값의 범위/분포를 일정하게 맞추는 변환
  • 파생변수: 기존 변수로부터 새로 만든 변수
  • PCA: 주성분분석, 차원축소 기법

정리

데이터 전처리는 데이터 분석의 성공을 좌우하는 핵심 과정이다. 결측치·이상치 처리, 데이터 변환, 변수 선택 등 다양한 기법을 활용해 데이터 품질을 높여야 하며, 모델의 성능과 신뢰도를 높이기 위해 반드시 거쳐야 하는 단계임을 기억해야 한다.
728x90

'데이터사이언스' 카테고리의 다른 글

데이터사이언스 핵심 내용 - 1  (1) 2025.06.03
클러스터링  (0) 2025.06.02
데이터 탐색  (0) 2025.05.29
데이터 관리  (1) 2025.05.28
데이터 수집  (0) 2025.05.26