유사도측정(Similaraty Measure)
태그 :
- 개념
- 상관분석, 유클리디안거리, 코사인유사도, 마할라노비스거리, 자카드계수, 추천시스템 - 컴퓨터가 자동으로 답을 예측 시 변숫값 쌍이 얼마나 비슷한가를 확인하는 측정
## Ⅰ. 비교 대상이 얼마나 비슷한지 확인 하는 계수, 유사도 측정 기법
### 가. 유사도 측정기법의 정의
- 컴퓨터가 자동으로 답을 예측 시 변숫값 쌍이 얼마나 비슷한가를 확인하는 측정 기법
### 나. 유사도 측정기법의 종류
- 유클리디안 거리, 코사인 유사도, **마할라노비스** 거리, 자카드 계수, 피어슨 상관계수 등
| 구분 |유사도 측정 기법 | 설명 |
| -------- | -------- | -------- |
| 유사도 계수 | 단순매칭 계수(SMC: Simple Matching Coefficient)| |
| | 자카드 계수(Jaccard Coefficient) | boolean 속성의 두개의 오브젝트 A,B에 대하여 A와B가 1(true)의 값을 가지는 교집합의 개수를 A와 B가 1(true)의 값을 가지는 합집합의 개수는 나눈 수 |
| | 코사인 유사도 | 내적공간의 두 벡터간의 각도의 코사인 값을 이용하여 측정된 벡터간의 유사한 정도 |
| | 피어슨 상관계수 | |
| | 스피어만 상관계수 | |
| 다차원 변수 유사도 | 유클리디안 거리 | 피타고라스정리의 개념을 이용하여 두 점 사이의 거리를 측정하는 기법 |
| | 마할라노비스 | 확률분포를 고려하여 공분산을 이용한 두 지점간의 거리를 측정 |
## Ⅱ. 유클리디안거리 개념
### 가. 유클리디안거리(Euclidean Distance) 개념
- **피타고라스정리의 개념을 이용하여 두 점 사이의 거리를 측정하는 기법**
### 나. 유클리디안거리 식
| 개념도 | 식 |
| -------- | -------- |
| ![](/upload/editor/images/유클라디안거리-개념도.png) | ![](/upload/editor/images/유클라디안거리-식.png) |
### 다. 유클리디안 거리 예시
![](/upload/editor/images/유클리디안거리예시.png)
## Ⅲ. 코사인유사도 개념
### 가. 코사인유사도(Cosine Similarity) 개념
- **내적공간의 두 벡터간의 각도의 코사인 값을 이용하여 측정된 벡터간의 유사한 정도**
### 나. 코사인유사도 의미
| 각도가 0 일때 | 완전 동일
코사인 값은 1 |
| -------- | -------- |
| 다른 모든 각도| 각도가 작을수록 유사도가 높음
코사인 값은 1보다 적음 | ### 다. 코사인 유사도식 |벡터상 개념도 | 식 |
| -------- | -------- |
| ![](/upload/editor/images/벡터상개념도.png) | ![](/upload/editor/images/코사인유사도식.png) |
## Ⅳ. 마할라노비스거리 개념
### 가. 마할라노비스거리(Mahalanobis Distance) 개념
- 확률분포를 고려하여 공분산을 이용한 두 지점간의 거리를 측정
- 유클리디안 거리에서 점 수를 늘려 거리를 구함
- 공분산: 확률변수의 상관정도를 나타내는 값으로 X의 편차와 Y의 편차를 곱한것의 평균값
### 나. 마할라노비스거리 식
![](/upload/editor/images/마할라노비스거리식.png)
(참고) 공분산 이해
확률변수 X 의 기대값과 Y의 기대값을
![](/upload/editor/images/확률변수의기대값.png)
라고 할때, X,Y의 공분산은 다음과 같다.
![](/upload/editor/images/공분산.png)
## V. 자카드(Jaccard) 계수
### 가. 자카드 계수의 개념
- boolean 속성의 두개의 오브젝트 A,B에 대하여 A와B가 1(true)의 값을 가지는 교집합의 개수를 A와 B가 1(true)의 값을 가지는 합집합의 개수는 나눈 수
### 나. 자카드 계수의 수식
![](/upload/editor/images/자카드계수의수식.png)
### 다. 자카드 계수 예시
![](/upload/editor/images/자카드계수예시.png)
## Ⅵ. 기타 유사도 측정 기법
- 피어슨 상관계수, 해밍거리 등
![](/upload/editor/images/기타유사도측정기법.png)
코사인 값은 1
코사인 값은 1보다 적음 | ### 다. 코사인 유사도식 |