통계적 가설검정
태그 : 인지덤,인공지능,통계적 가설검정
- 개념
- 귀무가설, 대립가설, P-Value, 유의수준, 신뢰도 - 모집단의 특성에 대한 통계적 가설을 모집단으로부터 추출한 표본을 사용하여 검토하는 통계적인 추론 - 통계적인 유의성을 검정하는 것으로, 유의성(有意性) 검정(Significance Test)이라고도 함
## Ⅰ. 통계적 가설검정
### 1. 통계적 가설검정 개념
1) 관련 용어 정의
| 구분 | 의미 |
| -------- | -------- |
| 가설
(Hypothesis) | - 현실적 조건에서는 증명하거나 검증하기 어려운 사물, 현상의 원인 또는 합법칙성에 관한 예측(과학적으로 증명되지 않은 주장) | | 검정(Testing) | - (가설이) 옳은지 검사하는 것 | | 통계적 가설검정 | - 모집단의 특성에 대한 통계적 가설을 모집단으로부터 추출한 표본을 사용하여 검토하는 통계적인 추론
- 통계적인 유의성을 검정하는 것으로, 유의성(有意性) 검정(Significance Test)이라고도 함 | 2) 통계적 가설검정 예시 |통계적 가설검정 예시 |
| -------- |
| • 한 모집단 모수의 가설검정에 대한 예
– ① 어느 과자제품의 겉봉지에 용량이 200g이라 표시되어 있다. 과연 표시된 용량만큼 과자가 들어있을까?
– ② 어느 전구공장에서 새로 개발한 전구가 과거의 것보다 훨씬 전구 수명이 길다고 선전 한다. 과연 이 선전이 믿을만할까?
– ③ 금년도 대입 학력고사를 치르고 난 직후 학생들은 영어 성적 평균이 5점정도 작년보다 증가될 것이라 고 한다. 이것이 사실인지 어떻게 조사할 수 있나?
→ 이와 같은 의문(가설)에 대한 답을 주는 것이 가설검정 (hypothesis testing)
• 표본을 이용하여 미지의 모집단 모수에 대한 두 가지 가설을 놓고 어느 가설을 선택할 것인지
통계적으로 의사결정을 하는 것| ### 2. 가설 종류 |가설종류 | 의미 |
| -------- | -------- |
| 귀무가설
(H0, null
hypothesis) | - 가설 검정(假說檢定)에서, 표본에 의하여 그 적부(適否)가 검정되어야 할 가설(기본적인 가설)
- 통계학에서 처음부터 버릴 것을 예상하는 가설
- 차이가 없거나 의미있는 차이가 없는 경우의 가설이며 이것이 맞거나 맞지 않다는 통계학적 증거를 통해 증명하려는 가설
- 일반적으로 긍정적이면서 입증이 어려운 가설| | 대립가설
(H1, alternative
hypothesis)| - 비교하고 싶은 가설
- 연구자가 연구를 통해 입증되기를 기대하는 예상이나 주장하는 내용
- 일반적으로 연구에서 검증하는 가설을 귀무가설이라 하고, 귀무가설과 반대되는 가설을 대립가설|  ### 3. 오류의 종류 - 관심대상은 광범위한 모집단인데 그 중 일부인 표본의 분석자료 로 모집단에 대한 검정결과를 일반화하는데서 다음과 같은 오류 들이 발생 |구분 | 의미 |
| -------- | -------- |
| 제 1종오류
(α error): | - 귀무가설 Ho가 옳은데도 불구 하고 Ho를 기각하게 되는 오류
(실제 True, 검정 False)
- True negative| | 제 2종오류
(β error): | - 귀무가설 Ho가 옳지 않은데도 Ho를 채택하는 오류
(실제 False, 검정 True)
- False positive| – 제 2종 오류를 범하지 않을 확률을 구하면 검정력(Power)를 알 수 있음
– 가설검정에서는 두 가지 오류가 작을 수록 바람직하나 두 가지를 동시에 줄일 수 없기 때문에 제Ⅰ종오류를 범할 확률의 최대 허용치를 미리 어떤 특정한 값으로 지정해 놓고 제 Ⅱ종오류의 확률을 가장 작게 해주는 검정 방법을 택하게 됨 ### 4. P-Value와 가설검정 1) 정의: 어떤 확률 값을 기준으로 구간을 선택하는 대신에 H0가 참이라고 가정하고 실제로 관측된 값보다 더 극단적인 값이 나올 확률을 구하는 것
2) P-Value와 검정통계량의 의미  3) P-Value와 검정통계량의 판단 - 검정통계량이 임계값 밖에 있으면 대립가설 채택
- p-Value가 유의수준보다 작으면 대립가설 채택  → 검정통계량의 판단 예시  ### 5. 가설검정 방법 1) 절차  * 통계 기본개념 √ 검정통계량(test statistics) : 관찰된 표본으로 부터 구하는 통계량으로 분포가 가설에서 주어 지는 모수에 의존한다. 검정시 가설의 진위를 판 단하는 수단이 된다.
√ 기각역(critical region) : 검정통계량의 분포에 서 유의수준 α의 크기에 해당하는 영역으로 계 산된 검정통계량의 유의성을 판정하는 기준이 된다.
√ 유의수준(α): 표본평균이 모평균과 같은데, 표본평균이 모평균과 다르다라고 선 택하는 오류를 범할 허용한계
√ 신뢰도(1-α): 검정하려는 귀무가설이 참인 경우, 이를 옳다고 판단하는 확률.
√ 유의수준(α)으로 0.05나 0.01이 자주 사용됨.
** 이는 컴퓨터가 없던 시절, 몇 개의 임계값에 대한 계산치만 만들었던 시절의 유산임. 아직도 일반적인 실험에서는 유의수준 5%와 신뢰도 95%, 유의수준 1% 와 신뢰도 99%를 많이 채택함.
(Hypothesis) | - 현실적 조건에서는 증명하거나 검증하기 어려운 사물, 현상의 원인 또는 합법칙성에 관한 예측(과학적으로 증명되지 않은 주장) | | 검정(Testing) | - (가설이) 옳은지 검사하는 것 | | 통계적 가설검정 | - 모집단의 특성에 대한 통계적 가설을 모집단으로부터 추출한 표본을 사용하여 검토하는 통계적인 추론
- 통계적인 유의성을 검정하는 것으로, 유의성(有意性) 검정(Significance Test)이라고도 함 | 2) 통계적 가설검정 예시 |
– ① 어느 과자제품의 겉봉지에 용량이 200g이라 표시되어 있다. 과연 표시된 용량만큼 과자가 들어있을까?
– ② 어느 전구공장에서 새로 개발한 전구가 과거의 것보다 훨씬 전구 수명이 길다고 선전 한다. 과연 이 선전이 믿을만할까?
– ③ 금년도 대입 학력고사를 치르고 난 직후 학생들은 영어 성적 평균이 5점정도 작년보다 증가될 것이라 고 한다. 이것이 사실인지 어떻게 조사할 수 있나?
→ 이와 같은 의문(가설)에 대한 답을 주는 것이 가설검정 (hypothesis testing)
• 표본을 이용하여 미지의 모집단 모수에 대한 두 가지 가설을 놓고 어느 가설을 선택할 것인지
통계적으로 의사결정을 하는 것| ### 2. 가설 종류 |
(H0, null
hypothesis) | - 가설 검정(假說檢定)에서, 표본에 의하여 그 적부(適否)가 검정되어야 할 가설(기본적인 가설)
- 통계학에서 처음부터 버릴 것을 예상하는 가설
- 차이가 없거나 의미있는 차이가 없는 경우의 가설이며 이것이 맞거나 맞지 않다는 통계학적 증거를 통해 증명하려는 가설
- 일반적으로 긍정적이면서 입증이 어려운 가설| | 대립가설
(H1, alternative
hypothesis)| - 비교하고 싶은 가설
- 연구자가 연구를 통해 입증되기를 기대하는 예상이나 주장하는 내용
- 일반적으로 연구에서 검증하는 가설을 귀무가설이라 하고, 귀무가설과 반대되는 가설을 대립가설|  ### 3. 오류의 종류 - 관심대상은 광범위한 모집단인데 그 중 일부인 표본의 분석자료 로 모집단에 대한 검정결과를 일반화하는데서 다음과 같은 오류 들이 발생 |
(α error): | - 귀무가설 Ho가 옳은데도 불구 하고 Ho를 기각하게 되는 오류
(실제 True, 검정 False)
- True negative| | 제 2종오류
(β error): | - 귀무가설 Ho가 옳지 않은데도 Ho를 채택하는 오류
(실제 False, 검정 True)
- False positive| – 제 2종 오류를 범하지 않을 확률을 구하면 검정력(Power)를 알 수 있음
– 가설검정에서는 두 가지 오류가 작을 수록 바람직하나 두 가지를 동시에 줄일 수 없기 때문에 제Ⅰ종오류를 범할 확률의 최대 허용치를 미리 어떤 특정한 값으로 지정해 놓고 제 Ⅱ종오류의 확률을 가장 작게 해주는 검정 방법을 택하게 됨 ### 4. P-Value와 가설검정 1) 정의: 어떤 확률 값을 기준으로 구간을 선택하는 대신에 H0가 참이라고 가정하고 실제로 관측된 값보다 더 극단적인 값이 나올 확률을 구하는 것
2) P-Value와 검정통계량의 의미  3) P-Value와 검정통계량의 판단 - 검정통계량이 임계값 밖에 있으면 대립가설 채택
- p-Value가 유의수준보다 작으면 대립가설 채택  → 검정통계량의 판단 예시  ### 5. 가설검정 방법 1) 절차  * 통계 기본개념 √ 검정통계량(test statistics) : 관찰된 표본으로 부터 구하는 통계량으로 분포가 가설에서 주어 지는 모수에 의존한다. 검정시 가설의 진위를 판 단하는 수단이 된다.
√ 기각역(critical region) : 검정통계량의 분포에 서 유의수준 α의 크기에 해당하는 영역으로 계 산된 검정통계량의 유의성을 판정하는 기준이 된다.
√ 유의수준(α): 표본평균이 모평균과 같은데, 표본평균이 모평균과 다르다라고 선 택하는 오류를 범할 허용한계
√ 신뢰도(1-α): 검정하려는 귀무가설이 참인 경우, 이를 옳다고 판단하는 확률.
√ 유의수준(α)으로 0.05나 0.01이 자주 사용됨.
** 이는 컴퓨터가 없던 시절, 몇 개의 임계값에 대한 계산치만 만들었던 시절의 유산임. 아직도 일반적인 실험에서는 유의수준 5%와 신뢰도 95%, 유의수준 1% 와 신뢰도 99%를 많이 채택함.