데이터마이닝-클러스터 탐지
태그 :
- 개념
- 의사결정 트리의 정의 - 의사결정규칙(decision rule)을 도표화하여 관심 대상이 되는 집단을 몇 개의 소집단으로 분류(classification)하거나 예측(prediction)을 수행하는 분석방법이다
I. 의사결정 트리(Decision Tree)의 개요
가. 의사결정 트리의 정의
- 의사결정규칙(decision rule)을 도표화하여 관심 대상이 되는 집단을 몇 개의 소집단으로 분류(classification)하거나 예측(prediction)을 수행하는 분석방법이다
나. 의사결정 트리의 특징
- 분석과정을 쉽게 이해하고 설명
- 분석정확도보다는 분석과정의 설명에 유용
II. 의사결정 트리의 개념도 및 분석 단계
가.의사결정 트리 개념도
나 .분석단계
분석단계 |
상세 활동 |
의사결정나무의 형성 |
분석의 목적과 자료구조에 따라서 적절한 분리 기준(split criterion)과 정지규칙(stopping rule)을 지정하여 의사결정나무를 얻는다. |
가지치기 |
분류오류(classification error)를 크게 할 위험(risk)이 높거나 부적절한 규칙을 가지고 있는 가지(branch)를 제거한 |
타당성 평가 |
이익도표(gains chart)나 위험도표(risk chart) 또는 검 정용 자료(test data)에 의한 교차타당성(cross validation) 등을 이용하여 의사결정나무를 평가 |
해석 및 예측 |
의사결정나무를 해석하고 분류 및 예측모형을 설정 |
다. 알고리즘의 종류
종류 |
설명 |
CHAID |
카이제곱 검정(범주형 목표변수) 또는 F-검정(연속형 목표변수)을 이용하여 다지분리(multiway split)를 수행하는 알고리즘 |
CART |
지니 지수(범주형 목표변수인 경우 적용) 또는 분산의 감소량(연속형 목표변수인 경우 적용)을 이용하여 이지분리(,binary split)를 수행하는 알고리즘 |
C5.0 |
ID3라는 이름의 알고리즘으로 만들어 졌다가 1993년에 C4.5를 거쳐 1998년에 완성된 알고리즘으로 명목형 목표변수만을 지원하는 단점이 있는 반면에 가장 정확한 분류를 만들어 주는 알고리즘으로 평가됨 |
알고리즘 |
평가지수(선택방법) |
비고 |
ID3 |
Entropy |
다자분리(범주) |
C4.5 |
Information Gain |
다자분리(범주) 및 이진분리(수치) |
C5.0 |
Information Gain |
C4.5와 거의 유사(차이점) |
CHID |
카이제곱(범주), F검정(수치) |
통계적 접근 방식 |
CART |
Gini Index(범주), 분산의 차이(수치) |
통계적 접근 방식, 항상 2진 분리 |
특성 |
CART |
ID3 |
C4.5 |
실수 데이터 |
부등호 질문 |
등식 질문 |
부등호 질문 |
트리 형태 |
이진 트리 |
트리 |
트리 |
가지치기 |
잎 노드 병합 |
X |
규칙 집합 |
분류 |
지원 |
지원 |
지원 |
회귀 |
지원 |
X |
X |
손실 특징 |
대리 분기 |
X |
샘플 무시 |
다중 변수 질문 |
지원 |
X |
X |
예제) 날씨 데이터에 따른 의사결정 트리 분석
Outlook |
temperature |
humidity |
windy |
play |
sunny |
hot |
high |
FALSE |
no |
sunny |
Hot |
high |
TRUE |
no |
overcast |
hot |
high |
FALSE |
yes |
rainy |
mild |
high |
FALSE |
yes |
rainy |
cool |
normal |
FALSE |
yes |
rainy |
cool |
normal |
TRUE |
no |
overcast |
cool |
normal |
TRUE |
yes |
sunny |
mild |
high |
FALSE |
no |
sunny |
cool |
normal |
FALSE |
yes |
rainy |
mild |
normal |
FALSE |
yes |
sunny |
mild |
normal |
TRUE |
yes |
overcast |
mild |
high |
TRUE |
yes |
overcast |
hot |
normal |
FALSE |
yes |
rainy |
mild |
high |
TRUE |
no |
날씨가 맑고(outlook=sunny) 습도가 낮으면(humidity=low) 운동을 한다. (play=yes)
날씨가 맑고(outlook=sunny) 습도가 낮으면(humidity=high) 운동을 한다. (play=no)
날씨가 흐리면(outlook=overcast) 운동을 한다. (play=yes)
- 원리
ㆍ 결정 트리의 원리
* 스무고개와 개념이 비슷
* 최적 기준에 따라 자동으로 질문을 만들어야 함
ㆍ 몇 가지 고려 사항
* 노드에서 몇 개의 가지로 나눌 것인가?
* 각 노드의 질문을 어떻게 만들 것인가?
* 언제 멈출 것인가?
* 잎 노드를 어느 부류에 할당할 것인가?