클러스터링
클러스터링
클러스터링은 데이터 내에서 유사한 속성을 가진 객체들을 그룹으로 묶는 비지도 학습 기법이다. 사전에 정답(label) 없이 데이터의 구조를 파악하거나, 데이터 분류의 기초 자료로 널리 활용된다.
1. 클러스터링의 개념과 목적
- 클러스터링은 데이터의 숨겨진 구조나 패턴을 발견하고, 유사한 데이터끼리 그룹화하는 데 목적이 있다.
- 고객 세분화, 이미지 분할, 이상치 탐지 등 다양한 분야에서 활용된다.
2. 대표적인 클러스터링 알고리즘
| 알고리즘 | 특징 | 활용 예시 |
|---|---|---|
| K-means | 중심 기반, 군집 수 지정 필요, 속도 빠름 | 고객 세분화, 이미지 분할 |
| 계층적 군집 | 트리 구조, 덴드로그램 시각화 | 생물 분류, 문서 분류 |
| DBSCAN | 밀도 기반, 이상치 탐지에 강함 | 이상치 탐지, 패턴 인식 |
3. 클러스터링의 평가와 활용
- 실루엣 계수, SSE(오차제곱합), Dunn Index 등 군집의 응집도와 분리도를 기준으로 평가한다.
- 클러스터링 결과는 데이터의 구조 이해, 분류, 이상치 탐지, 추천 시스템 등에 활용된다.
4. 용어 정리
- 클러스터: 데이터 내에서 유사성이 높은 그룹
- 비지도 학습: 정답(label) 없이 데이터 구조를 학습
- 덴드로그램: 계층적 군집 결과를 시각화한 트리 구조
정리
클러스터링은 데이터의 숨겨진 구조를 발견하는 대표적인 비지도 학습 방법이다.
다양한 알고리즘과 평가 지표를 활용해 데이터의 특성을 효과적으로 파악할 수 있으며,
실제 데이터 분석, 마케팅, 이상치 탐지 등 실무에서 매우 널리 활용된다.
728x90
