지지도/신뢰도/향상도
태그 :
기출문제1)
다음은 장바구니 데이터를 이진 형식으로 표현한 것이다. 데이터 마이닝 규칙 {Milk, Diapers} → {Beer}에 대한 지지도(support)와 신뢰도(confidence)는 각각 얼마인가?
TID |
Bread |
Milk |
Diapers |
Beer |
Eggs |
Cola |
1 |
1 |
1 |
0 |
0 |
0 |
0 |
2 |
1 |
0 |
1 |
1 |
1 |
0 |
3 |
0 |
1 |
1 |
1 |
0 |
1 |
4 |
1 |
1 |
1 |
1 |
0 |
0 |
5 |
1 |
1 |
1 |
0 |
0 |
1 |
① 지지도 0.67, 신뢰도 0.4
② 지지도 0.6, 신뢰도 0.6
③ 지지도 0.4, 신뢰도 0.67
④ 지지도 0.6, 신뢰도 0.67
TID |
Bread |
Milk |
Diapers |
Beer |
Eggs |
Cola |
1 |
1 |
1 |
0 |
0 |
0 |
0 |
2 |
1 |
0 |
1 |
1 |
1 |
0 |
3 |
0 |
1 |
1 |
1 |
0 |
1 |
4 |
1 |
1 |
1 |
1 |
0 |
0 |
5 |
1 |
1 |
1 |
0 |
0 |
1 |
① 지지도(Support) : 전체 표본에서 A와 B를 동시에 포함하는 비율
- Support(A=>B) = Pr(A∩B)
- A와 B를 동시에 포함하는 거래 수 / 전체 거래 수
- 지지도 높을수록 연관 규칙의 의미 높아짐
Milk, Diapers, Beer 3가지 모두 포함하는 거래 수 : 2
전체 거래 수 : 5
Support(Milk, Diapers => Beer) = 2/5 =0.4
② 신뢰도(Confidence) : A를 포함하는 거래 중에서 B도 함께 포함된 거래의 비율
- Lift(A=>B) =Pr(B│A) /Pr(B) =Pr(A∩B) / (Pr(A)*Pr(B))
- A와 B를 동시에 포함하는 거래 확률 / (A 거래 확률 * B 거래 확률)
- 향상도가 1에 가까우면 A거래와 B거래간 독립적, 1보다 크면 연관관계 큼
Milk, Diapers, Beer 3가지 모두 포함하는 거래 확률 : 2/5
Milk, Diapers 거래 확률 : 3/5
Beer 거래 확률 : 3/5
Support(Milk, Diapers => Beer) = 2/5 / (3/5 * 3/5) = 10/9
문제2)
2. 데이터마이닝의 중요한 응용 중 하나는 연관규칙들을 발견하는 것이다. 제시된 장바구니 모델의 트랜잭션 예에서 지지도가 40%이상이고, 신뢰도가 70% 이상인 연관 규칙은 ?
트랜잭션 ID |
구입한 물품 |
100 |
사과, 바나나, 우유, 빵 |
103 |
사과, 우유, 빵, 계란, 주스 |
105 |
사과, 바나나, 커피, 빵, 계란 |
218 |
커피, 빵, 주스 |
229 |
맥주, 오징어, 커피, 주스 |
356 |
맥주, 오징어, 우유, 빵, 커피, 주스 |
- 커피 => 주스
- 맥주 => 오징어
- 빵 => 우유
사과 => 바나나
해설) 정답 1
지지도 = A와B를 동시에 포함하는 거래수 / 전체거래수 * 100
신뢰도 = A와B를 동시에 포함하는 거래수 / A를 포함하는 거래수 * 100
향상도 = A와B를 동시에 포함하는 거래수 / (A거래수 x B거래수 ) * 100
커피 => 주스의 지지도 = 3/6 * 100 = 50%
커피 => 주스의 신뢰도 = 3/4 * 100 = 75%
커피 => 주스의 향상도 = 3/(4*4) * 100 = 18.75%
문제3)
조건)
판매 품목 |
거래 수 |
TV 구매 |
4,000 |
DVD 구매 |
2,000 |
TV와 DVD 동시 구매 |
1,000 |
전체 거래 수 |
10,000 |
TV에 대한 DVD의 지표분석(TV를 사면 DVD도 같이 산다.)
가. 지지도(Support) - 전체 거래 중 TV와 DVD를 구매한 사람 비율
= TV & DVD / 전체거래 수 = 1,000/10,000 = 10%
나. 신뢰도(Confidence) - TV를 산 사람들 중에 DVD를 산 사람들의 비율
= TV & DVD / TV = 1,000/4,000 = 25%
다. 리프트(Lift) - 임의로 B가 구매된 경우에 비해 연관규칙에 의해 B가 구매되는 경우의 비율
(1보다 크면 예측력이 있다고 평가)
= 지지도/(TV구매확률*DVD구매확률)
= 0.1/(0.4*0.2) = 1.25 > 1 따라서 연관성이 있음.