클러스터링


클러스터링은 데이터 내에서 유사한 속성을 가진 객체들을 그룹으로 묶는 비지도 학습 기법이다. 사전에 정답(label) 없이 데이터의 구조를 파악하거나, 데이터 분류의 기초 자료로 널리 활용된다.

1. 클러스터링의 개념과 목적

  • 클러스터링은 데이터의 숨겨진 구조나 패턴을 발견하고, 유사한 데이터끼리 그룹화하는 데 목적이 있다.
  • 고객 세분화, 이미지 분할, 이상치 탐지 등 다양한 분야에서 활용된다.

2. 대표적인 클러스터링 알고리즘

알고리즘 특징 활용 예시
K-means 중심 기반, 군집 수 지정 필요, 속도 빠름 고객 세분화, 이미지 분할
계층적 군집 트리 구조, 덴드로그램 시각화 생물 분류, 문서 분류
DBSCAN 밀도 기반, 이상치 탐지에 강함 이상치 탐지, 패턴 인식

3. 클러스터링의 평가와 활용

  • 실루엣 계수, SSE(오차제곱합), Dunn Index 등 군집의 응집도와 분리도를 기준으로 평가한다.
  • 클러스터링 결과는 데이터의 구조 이해, 분류, 이상치 탐지, 추천 시스템 등에 활용된다.

4. 용어 정리

  • 클러스터: 데이터 내에서 유사성이 높은 그룹
  • 비지도 학습: 정답(label) 없이 데이터 구조를 학습
  • 덴드로그램: 계층적 군집 결과를 시각화한 트리 구조

정리

클러스터링은 데이터의 숨겨진 구조를 발견하는 대표적인 비지도 학습 방법이다. 다양한 알고리즘과 평가 지표를 활용해 데이터의 특성을 효과적으로 파악할 수 있으며, 실제 데이터 분석, 마케팅, 이상치 탐지 등 실무에서 매우 널리 활용된다.
728x90

'데이터사이언스' 카테고리의 다른 글

데이터사이언스 핵심 내용 - 1  (1) 2025.06.03
데이터 전처리  (0) 2025.05.31
데이터 탐색  (0) 2025.05.29
데이터 관리  (1) 2025.05.28
데이터 수집  (0) 2025.05.26