4.1 추론통계를 배우기 전에
전수조사와 표본조사
- 전수조사 :
- 모든 요소를 조사하는 방법이다.
- 기술통계 방법을 사용하여 모든 요소로부터 알고자 하는 성질을 계산하고 평가함으로써 알아낸다.
- 표본조사
- 모집단의 일부인 표본으로 모집단의 성질을 추정하는 방법이다.
- 추정통계 방법을 사용하여 모집단을 추정하는 분석에 기반을 두고 있다.
- 힘든 부분이다.
데이터를 얻는다는 것
데이터(표본)을 얻는다는 것의 의미?
- 모집단에 포함된 전체 값으로 구성된 분포에서 일부를 추출하는 것
모집단분포 : 엄청난 개수의 요소를 모아 히스토그램을 그리는 모습/ 모집단을 나타내는 분포
모집단 관련 용어
- 모집단분포가 양적 변수의 분포인 경우
- 평균이나 분산을 정의할 수 있는데, 이를 모평균, 모분산이라 한다.
- 모집단분포를 특징 짓는 양 : 모수 또는 파라미터
- 모수의 의미 :
- 통계학에선 모수를 아는 것이 목표
- 찾기 어렵다는 점에서 표본으로 추정
-
더보기일상에서는 모집단에 포함된 요소 개수를 '모수'란 단어로 사용하는 경우가 있다.
- 모수의 의미 :
확률분포와 실현값
확률분포
- 가로축 : 확률변수의 값
- 세로축 : 해당 확률변수의 확률
확률분포를 알면 확률분포를 따르는 실현값이 확률적으로 어떻게 움직일지를 이해할 수 있다.
예시) 실현값 : 주사위의 눈 1, 확률값 : 1/6
확률분포와 실현값의 관계는 모집단과 표본의 관계와 매우 비슷하다는 점이다.
확률분포 vs 모집단
모집단에서 확률을 가져올 수 있는 이유
모집단의 히스토그램에 포함된 모든 요소 개수로 세로축의 눈금 수를
나눈 값은 비율이 되며, 이를 확률로 간주할 수 있다.
>모집단분포를 확률분포로 보는 게 가능하다.
표본 vs 확률분포를 따르는 실현값
모집단으로부터 무작위,독립으로 하나씩 데이터를 추출하는 것은
확률분포로 본 모집단 분포에서 그 확률분포를 따르는 실현값이 발생하도록 하는 일에 해당한다.
> 확률분포 = 모집단
> 표본추출 = 확률분포를 따르는 실현값 발생
데이터로부터 그 발생원의 확률분포 추정하기
- 목표
- "얻은 표본으로부터 모집단을 추정한다" == "얻은 실현값으로 이 값을 발생시킨 확률분포를 추정한다"
- 이는 추론 통계에서 중요한 사고방식이며, 앞으로 나올 다양한 방법에 공통되는 개념이다.
- 모집단의 모형화
- 현실의 모집단분포의 실제 모습은 약간 삐뚤거나 들쑥날쑥하다.
- ex) 성인 남성 키의 분포는 정규분포와 매우 비슷하지만, 엄밀한 의미에선 정규분포가 될 수는 없다.
- 실제 분포는 수학적으로 다룰 수 없을 때가 잦기에 3장에서 배운 것과 같은 수식으로 기술하게 된다
- 수학적으로 다룰 수 있는 확률분포(모형)에 근사 -> 추정이 용이
- 모형화(modeling) : 수학적인 확률분포로 모집단분포를 근사하는 것을 말한다.
- ex) 정규분포로 근사는 평균과 표준편차라는 2가지 파라미터만으로 분포를 기술과 다룰 수 있다.
- ex) 정규분포로 근사는 평균과 표준편차라는 2가지 파라미터만으로 분포를 기술과 다룰 수 있다.
- 무작위추출(random sampling)
- 데이터를 얻을 때 모집단에 포함된 요소를 하나씩 무작위로 선택하여 추출하는 방식이다.
- 데이터의 실현값은 확률분포에서 무작위로 발생하도록 한 값이라고 생각해야 하기 때문이다.
- 무작위로 뽑기(선별을 허용해선 안 된다.)
- 이전과 비슷한 값을 선별하여 뽑기( 독립적이지 않은 선택 방식은 적절하지 않다 )
- 데이터의 실현값은 확률분포에서 무작위로 발생하도록 한 값이라고 생각해야 하기 때문이다.
- 데이터를 얻을 때 모집단에 포함된 요소를 하나씩 무작위로 선택하여 추출하는 방식이다.
- 무작위추출 방법
편향된 추출
- 모집단에서 특정 속성의 대상만을 표본으로 얻은 경우에 해석은 가능하기에 결과는 얻을 수 있지만,
적절한 추정은 아니기에 주의가 필요하다.
데이터를 얻는 법
- 기존에는 알고자 하는 대상에 맞추어 모집단을 설정하면 되었다.
- 표본은 모집단에서 추출할 필요가 있기에, 모집단을 너무 넓게 설정하면 무작위추출이 안 될 때가 있다.
- Ex: 백신의 효능에 대한 대상 모집단은 모든 인종을 포괄할 때, 한국인만 하는 경우는 모집단을 다시 고려해야 한다.
- Sol : '인종별로 효과에 차이가 없다'라는 사전 지식이 있다면, 위의 예시에서도 모든 인종에게도 유효할 것을 기대할 수 있다.
- so, 모집단에 대해 추정한 결과를 어느 정도 일반화할 수 있는가는, 각 분야 고유의 지식(도메인 지식)에 따라 달라진다.
- Point : 선행 연구를 참고하면서 결과에서 얻은 결론을 얼마나 일반화할 수 있는가, 또는 그 한계나 제약은 무엇인가를 충분히 논의해야만 한다.
추론통계를 직감적으로 이해하기
우리는 데이터를 획득한 후에 '추론'의 사고방식으로 넘어가게 된다.
여기서는 우리가 일상에서 무의식적으로 하고 있는 '추론통계에 가까운 일'들이 있다.
이들의 시사점은
- 정말로 알고자 하는 대상은 표본이 아니고 모집단이다.
- 알고자하는 것은 국자 안의 된장국이 아닌 냄비 안의 된장국이다.
- 모집단을 모든 요소에 대한 전수조사는 어렵다.
- 냄비 안의 된장국을 다 먹고 맛을 조사하기는 어렵다.
- 작은 크기의 표본으로도 모집단을 추론할 수 있다.
- 국자 안의 된장국으로도 된장국 맛을 '거의' 확인할 수 있다.
- 표본을 추출할 때 무작위로 추출해야 한다.
- 뜰 때는 잘 섞어야 한다.
4.2 표본오차와 신뢰구간
모집단과 데이터 사이의 오차 고려하기
'정말로 알고 싶은 것 = 모집단평균 μ'
이에 대한 대처안으로 모집단의 일부인 크기 n인 표본을 모집단에서 무작위로 추출하여,
이 표본에서 모집단평균 μ를 추정하는 방법이다.
모집단의 평균 μ나 표준편차 σ 등은 고정된 값이지만,
모집단분포에서 얻은 표본 x1,x2,...,xn은 확률적으로 변하는 확률변수이다.
표본오차
평균이 μ인 모집단에서 표본을 얻었고, 표본평균을 계산해보자.
만약 표본평균이 모집단평균과 일치한다면, 모집단을 알 수 있다는 뜻이다.
실제론 '정말로 알고 싶은 것'과 '실제로 손 안에 있는 데이터'에는 어긋남이 생기는데, 이를 표본오차(표집오차, sampling error)라 한다.
표본오차는 실수나 잘못에서 기인한 오차가 아닌, 데이터 퍼짐이 있는 모집단에서 random sampling에서 발생하는, 피할 수 없는 오차라는 점을 인지하자.
표본오차 = " μ of sampling 과 μ의 차이"
주사위의 표본오차
이상적인 주사위가 모집단인 경우, 각 눈은 1/6씩 균등하게 나오므로 평균값은 3.5이다.
실제로는 평균이 모집단평균보다 크거나 작은 경우가 있었다.
표본오차는 확률적으로 바뀐다
표본은 모집단의 성질과 정확히 일치하지 않고, 확률오차를 수반한다.
이런 오차에 대한 법칙과 정리를 알아보자
큰 수의 법칙
표본평균과 모집단평균의 관계에는 큰 수의 법칙(law of large numbers)가 성립한다.
이는 표본크기 n이 커질수록 표본평균이 모집단평균에 한없이 가까워진다는 법칙이다.
이는 표본오차 = x̄- μ 가 0에 한없이 가까워진다는 뜻이다.
표본오차의 확률분포
표본크기 n이 커질수록 표본평균이 모집단평균에 가까워진다는 것을 큰 수의 법칙으로 알아냈다.
하지만 n이 무한대로 하더라도 이 둘은 일치하지 않다.
그럼 표준오차는 어떻게 될 것인가?
표준오차는 표준평균의 확률변수의 합으로 이루어져 있기에 여기서 모집단평균이라는 정수를 뺀 것이므로 확률변수이다.
이를 통해 표준오차의 확률분포를 짐작할 수 있다.( = 어느 정도의 크기의 오차가, 어느 정도의 확률로 나타나는지를 알 수 있다.)
중심극한정리
- 표본오차의 분포에 관해 중요한 정보를 제공하는 것이 중심극한정리(central limit theorem)이다.
- 모집단이 어떤 분포이든 간에, 표본크기가 커질수록 표본평균의 분포는 정규분포로 근사한다.
- 우린 정규분포의 평균과 표준편차를 알고 있다면?
- 어느 정도 크기의 표본평균이 나타나는가를 확률로서 알 수 있다.
- 표본평균 x̄는모집단평균 중심으로 분포한다는 점과 좌우엔 표준편차 1개만큼 σ/√(n)의 폭으로 퍼져 분포한다는 것을 알 수 있다.
- 이는 n이 커질수록 어긋남이 평균적으로 작아진다는 것을 뜻한다.
추정량
이전의 내용은 표본평균이라는 통계량을 통해 모집단평균에 어떻게 접근할 수 있는지에 대해 알아보았다.
- 정의 : 모집단의 성질을 추정하는 데 사용하는 통계량을 추정량이라 한다.
- 추정량은 확률변수이다. > 확률분포를 생각할 수 있다.
- 일치추정량 : n을 무한대로 했을 때, 모집단의 성질과 일치하는 추정량
- 비편향추정량 : n을 무한대로 했을 때, 추정량의 평균값이 모집단의 성질과 일치할 때의 추정량
- 비편향추정량은 매번 얻을 때마다 확률적으로 다른 값이 되지만, 평균으로 보면 모집단의 성질을 과대/과소하지 않게 나타내는 양을 뜻한다.
- 추정량 하나하나는 모집단의 성질(모집단평균)에서 벗어나지만, 이를 모아 구한 평균값이 모집단평균과 일치하는 경우를 비편향추정량이라고 한다.
- 이는 중심극한정리의 내용처럼 표본평균 분포의 평균은 모집단의 성질인 모집단평균( μ )과 일치하므로, 표본평균은 모집단평균 μ를 편향되지 않게 추정하는 비편향추정량이다.
- 표준편차는 n-1로 나눈 식이 표준편차 σ의 비편향추정량이 된다.
- 이를 비편향표준편차라 부른다.
-
더보기n-1인 이유?
과소평가를 보정하기 위해 n-1을 이용한다.
"μ로부터의 차이의 제곱"보다 "표본평균으로부터의 차이의 제곱"이 더 작은 값이 되기에 n이 아닌 n-1을 이용한다.
표본오차의 분포
이전 부분은 추정량에 대해 이제 표본평균의 분포 이야기로 돌아갑니다.
중심극한정리를 통한 표본평균의 분포 평균은 μ이고,
"표본오차 = 표본평균 - μ"의 분포는 평균이 0이 된다.
이와 달리 표준편차는 그대로 σ/√(n)이 된다.
표본오차의 분포는 모집단의 표준편차와 표본크기 2개의 값만 정해지면 알 수 있다.
이 σ/√(n)을 표준오차(standard error)라 한다.
표본에선 σ를 알 수 없기에 앞서 살펴본 표본에서 추정한 비편향표준편차 s로 대체하여 s /√(n)를 표준오차로 삼는다.
신뢰구간이란?
이전의 내용으로 표본오차의 확률분포를 얻었다.
이것을 통해 얼마나 큰 오차가 어느 정도의 확률로 나타나는가를 알 수 있다.
오차를 정량화하기 위해, 신뢰구간(confidence interval)이라는 개념을 도입하자.
정규분포의 성질은 "평균값 ± 2x표준편차" 범위에 약 95%의 값을 포함하고 있다.
이는 하나의 값을 무작위로 꺼내면 약 95%의 확률로 그 범위에 포함된다는 의미이다.
해당 이미지는 표본오차 분포에서 나오는 표본 평균, 비편향표준편차s(추정량), 표본크기 n을 이용하여 95%신뢰구간을 가진 평균 μ의 범위를 도출하였다.
신뢰구간의 해석
"~% 신뢰구간"= "~%의 확률로 이 구간에 모집단평균 μ가 있다"
- 이때 확률변수는 모집단평균이 아니고, 표본평균이다.
- 이는 μ가 확률적으로 변하여 그 구간에 포함되는 것이 아니다.
- 모집단에서 표본을 추출하여 ~% 신뢰구간을 구하는 작업을 100번 반복하면 평균적으로 그 구간에 μ가 포함되는 것이 ~번이라는 뜻이다.
- 하나의 표본에서 얻은 신뢰구간은 μ가 신뢰구간에 표본평균에 의해 포함되거나 안되거나 둘 중 하나이다.
- 해석 : 신뢰구간은 표본에서 구한 모집단평균( μ )의 추정값을 어느정도 신뢰할 수 있는지를 나타낸다고 할 수 있다.
신뢰구간의 구체적인 예
표본크기 10으로 키 표본을 구하는 경우
- 표본평균, 비편향표준편차를 구할 수 있다.
- 표준오차인 s/ √(n)을 구한다.
- " 표본평균 +- 2x s/ √(n) "구간에서 모집단평균 μ는 95%의 확률로 있게 된다는 것을 알 수 있다.
t분포와 95% 신뢰구간
t분포가 필요한 이유
- 중심극한정리는 표본크기 n이 커질수록 근사적으로 성립하기에, 작은 표본크기는 표본오차가 정규분포를 따른다고 말할 수는 없다.
- 모집단의 σ 대신 s를 써야만 한다.
이 2가지의 문제를 위해 나온 것이 t분포이다.
t분포
- 모집단이 정규분포라는 가정
- 모집단 표준편차 σ를 표본으로 계산한 비편향표준편차 s로 대용시
- 표본평균과 모평균과의 차이를 표준오차 s/ √(n) 으로 나누어 표준화한 값이 따르는 분포이다.
- n이 커짐에 따라 t분포는 정규분포에 가까워진다.
하/상위 2.5% 지점은 정규분포에서 -1.96, +1.96이다.
이때 표본크기 n=10인 경우에는 조금 넓어져 -2.26, +2.26이 된다.
그래서 이 2.26을 ( s/ √(n)) (=2.18) 와 곱하여 구간을 구한다.
정밀도를 높이려면
보다 신뢰 가능한 평균값을 추정하고 싶을 때는 어떻게 하면 될까?
이때는 오차분포의 너비를 나타내는 "표준오차 s /√(n)"를 주목하자
"정밀하게 == 표준오차를 작게"하는 것이므로 s를 작게, n을 크게 하는 2가지 방법이 있다.
모집단 데이터 퍼짐이라는 모집단 자체의 성질을 바꾸기는 힘들다.
하지만 표본크기n을 증가시킴으로써 측정한 데이터 퍼짐 정도를 줄일 수는 있다.
t 분포를 사용할 때 주의할 점
가정
- t분포에는 '정규분포에서 얻은 데이터'라는 가정이 필요하다.
- t분포는 데이터를 정규분포라는 모형에서 얻었을 때의 (표준화된) 표본오차가 따르는 분포이다.
- 모집단분포(실젯값이므로)가 완벽한 정규분포일 수는 없으므로, 얻은 95% 신뢰구간은 정확한 95%가 아니라는 점에 주의하자.
- 정규분포와 현저히 다른 분포에서 데이터를 얻었을 때 나오는 문제
- 이 경우는 95% 신뢰구간을 구해도 95%에서 벗어날 수 있기에 주의해야 한다.
- 이때도 표본크기가 커지면 중심극한정리에 따라 모집단이 정규분포가 아니더라도 표본평균을 정규분포에 근사할 수 있다.
신뢰구간과 가설검정
이전에는 추론통계의 방법인 신뢰구간을 얻는 과정을 살펴보았다.이제는 또 하나의 추론통계 방법인 가설검정에 대해 알아보자.
가설검정은 신뢰구간과 관계가 깊다.
5.1 가설검정의 원리
또 하나의 추론통계 방법
가설검정이란? 분석자가 세운 가설을 검증하기 위한 방법이다.가설검정에는 p값(p-value)이라는 수치를 계산하여 가설을 지지하는지 여부를 판단한다.
가설 검증하기
- 확증적 자료분석(가설검증형 데이터 분석) : 미리 세운 가설을 검증하는 접근법
- 탐색적 자료분석 : 가설을 미리 세우지 않고, 전체 데이터를 탐색적으로 해석하는 접근법
- 이 방법은 데이터의 특징, 경향을 파악하여 가설 후보를 찾는 것을 목적으로 하는 데이터 분석이다.
가설 검증
- 가설검정 : 데이터에 기반을 둔 통계 가설을 검증하는 방법
- 데이터 분석시 많이 사용하는 방법으로, 반드시 이해해야 함.
- 군(그룹) : 가설을 입증하기 위해 특정 동일 조건이 집단
- 실험군: 어떤 조치를 취한 집단,
- 대조군 : 실험군과 비교대조를 위해 마련한 집단
통계학에서 가설이란?
가설을 설정하여 군에 따라 다르게 처리한 경우, 측정하는 결괏값의 평균값이 달라지면 조건의 효과가 있는 것이다.
ex)신약에 의한 신체의 변화가 있다면 효과가 있고, 효과가 없다면 신체의 평균값의 차이가 없다.
주의 : 이 가설은 모집단을 대상으로 한 가설이고, 표본(데이터)을 대상으로 한 가설은 아니다.
귀무가설과 대립가설
위의 예시에는 "신약에 효과가 있다 : μ1 =/= μ2" 와 "신약에 효과가 없다 : μ1 = μ2"라는 2개의 가설이 있다.
가설검정에서는 밝히고자 하는 가설의 부정 명제를 귀무가설(null hypothesis)이라 하고,
밝히고 싶은 가설을 대립가설(alternative hypothesis)라 한다.
귀무 | 효과가 없다 |
대립 | 효과가 있다 |
가설검정에서는 상정한 가설, "신약에 효과가 있다"를 확인하고자
그 부정 명제인 귀무가설을 세우고,
이 귀무가설이 틀렸음을 주장하는 것으로
대립가설을 지지한다는 흐름을 취하고 있다.
모집단과 표본의 관계 다시 살펴보기
추론통계에서 나온 것처럼
모집단의 성질은 직접 관찰할 수 없다.
그래서 추출한 표본을 분석함으로써 모집단의 성질을 추정한다는 것이 추론통계의 방침이다.
이는 가설검정에서도 마찬가지이다.
우린 이전에 random sampling을 통한 표본평균과 모집단평균의 어긋남에 대해 배웠다.
이 어긋남은 어쩔 수 없는 오차이다.
그래서 모집단평균이 같다는 귀무가설이 옳더라도 표본평균이 다를 수도 있다.
이는 약에 아무 효과가 없더라도 표본평균에는 차이가 있을 수도 있다.
그래서 우리는 표본평균의 차이에 대해 아래의 2가지 이유를 고려해야 한다.
1. 귀무가설이 옳을 때도 생기는 단순한 데이터 퍼짐인지
2. 약의 효과인지
귀무가설이 옳은 세계 상상하기
위에서처럼 2가지 이유를 고려해야 하는데, 이에 대한 방법으론
1) 귀무가설이 옳다고 가정해보자.
2) 표본평균의 차이를 구한다
3) 이 과정을 반복한다.
4) 얻은 값들로 히스토그램을 그려본다.
이를 통해 차이가 평균적으로 0이라는 것, 또 0에 가까울수록 높은 확률을 가진다는 것을 알 수 있다.
p 값
현실로 돌아와, 실제 데이터로 계산한 표본평균의 차이를 떠올려 보자.
이 현실의 값은 귀무가설이 옳은 가상 세계에서는 어떤 빈도로 발생할까?
이 생각이 가설검정의 중요한 사고방식이다.
왜 이게 중요한 사고방식인 거니??
빈도를 통해 귀무가설 세계에서 드물다는 결론이 나오면
귀무가설을 틀렸다고 주장할 수 있기 때문이다.
실제로 얻은 데이터가 가상 세계에서는 극히 드물다면 >> 가상세계가 틀린 것이다.
여기서 현실에서 얻은 데이터가 귀무가설이 옳은 가상 세계에서는 얼마나 나타나기 쉬운가, 또는 어려운가를 평가하고자 p값(p-value)이라는 값을 계산한다. 이 값은 0이상 1이하의 값이다.
예시 : 현실에서 얻은 평균값(?- 표본, 모집단?)의 차이가 +10이고 p=0.01이라면, 귀무가설이 옳은 세계에서 평균값의 차이가 +10 이상이거나 -10 이하가 될 확률은 1%이다.
여기선 p값이 특정 수를 기준으로 그것의 절댓값이 더 큰 경우의 확률을 보는 것으로 생각하자.
p값과 유의수준 α를 이용한 가설판정
p값이 작다는 것은 귀무가설이 옳은 세계에서는 현실 데이터가 잘 나타나지 않는다는 뜻이다.즉, p값은 귀무가설과 현실 데이터간의 괴리 정도를 평가하고 있다.p가 0.05 이하인 경우는 귀무가설을 버리고, 대립가설을 선택한다.이때 평균값의 차이는 "통계적으로 유의미한(statistically significan) 차이가 있다."라고 표현한다.이는 대립가설이 절대적으로 옳다는 뜻이 아니고, 지지하는 하나의 증거를 얻었다는 의미이다.
p값이 0.05를 상회하는 경우 귀무가설을 기각할 수 없으며, "통계적으로 유의미한 차이는 발견하지 못했다"라는 결과가 나온다.
통계적으로 유의미한 차이 가 의미하는 것이 무엇인가?
발생 빈도를 볼 때 50%는 판단이 무의미하고, 99%, 95%, 0% 정도 되면 통계적으로 의미있다고 말할 수 있다.
여기서 귀무가설을 기각or 채택에 대한 판단 경계로써 유의수준 α라 한다.
가설검정 흐름 정리
1) 모집단을 대상으로 귀무가설과 대립가설을 설정한다.
2) 실험, 관찰을 통한 표본 데이터를 얻기
3) 귀무가설이 옳은 세계를 상정하여, 현실 데이터가 그곳에서 얼마나 잘 나타나는지 p값으로 평가한다.
4) p값이 유의수준 0.05보다 크면 기각하지 않고 보류한다.
5.2 가설검정 시행
가설검정의 구체적인 계산
가설검정의 개념은 공통이지만 p값의 계산방법은 서로 다르다.
p값 계산보다는 가설검정의 개념이 더 중요하다.
ex) 이표본 t검정(two-sample t-test)
- 신뢰구간에서 표본평균과 모집단평균의 차이는 정규분포를 근사적으로 따른다.
- 귀무가설이 옳다고 가정하기에 μA- μB=0를 대입한다.
- 이 방법으로 귀무가설이 옳은 세계의 표본평균 차이 x̄A- x̄B의 근사적인 분포를 얻을 수 있다.
-
더보기'근사적'이라는 말은 "표본크기가 작으며", "표본에서 추정한 값"을
모집단의 표준편차로 사용하는 경우 정규분포와는 다소 어긋난다는 의미이다. - t를 구하는 방법은 ?
- 이전의 주인공인 x̄A- x̄B 를 s√(1/nA+ 1/nB) 로 나누어 표준화한 값인 t값을 새로운 주인공으로 삼아, t분포를 적용하면 된다.
- 귀무가설이 옳을 때의 분포를 통해 귀무가설이 기각할 것인지 판단하고자, 현실 데이터가 이 분포 가운데 어디에 위치하는지 생각해나간다.
-
더보기계산 보충
s는 비편향표준편차이지만, 여기서는 2개 집단이므로 계산 방법이 조금 다르다.
이에 대해 특별히 신경쓰지 않아도 된다.
-
기가역과 p값
분산분포
- 가운데 : 자주 일어나는 사건
- 양 끝단 : 잘 일어나지 않는 드문 현상
좌우 2.5%씩의 발생 범위를 고려하여, 합쳐 5%로 잡는다.
이 좌우 2.5%씩의 영역을 유의수준 5%인 기각역이라 한다.
또한, 2.5%가 되는 t값을 2.5% 지점이라고 한다.
이것은 신뢰구간에서 등장한 2.5% 지점과 같다.
실제로 얻은 값이 기각역에 포함될 때는 p<0.05
귀무가설 하에서는 현실 데이터는 발생하기 어려울 것으로 간주하여 귀무가설을 기각한다.
p값
실제 값이 이 귀무가설이 옳을 때의 t분포 내 어디에 위치하는지 구한 뒤, 그 이상의 극단적인 값이 나올 확률을 구한 값
만약 실제 값이 t=-2.3 이라면, t가 -2.3 이하일 확률과 +2.3 이상일 확률을 각각 구하면 된다.
이때의 넓이 총합이 p값이다.
이처럼 양/음 양쪽 모두를 고려하는 가설검정 방법을 양측검정이라 한다.
반대로 어느 한쪽만 고려해 넓이를 계산하는 방법은 단측검정이라 한다.
특별한 이유가 없다면 보통은 양측검정을 이용한다.
신뢰구간과 가설검정의 관계
p값 계산의 출발점은, 신뢰구간 계산과 무척 닮았다.
μA- μB의 95% 신뢰구간이 0에 걸치는지 여부와, p값이 0.05를 밑도는지 여부는 등치이다.
실제 값인 표본평균으로 모집단평균을 추정하는 것이 신뢰구간이며,
귀무가설을 가정해 모집단평균을 μA- μB=0으로 고정했을 때의 표본평균이 어떤 값이 될 것인지를 구하는 것이 가설검정이다.
이 두 방법은 동전의 양면과 같은 관계로, 중심으로 생각하느냐의 차이일 뿐이다.
가설검정의 구체적인 예
예시
1.
위의 이미지처럼 2개의 집단의 평균값을 비교하는 t검정을 시행해 보자.
데이터를 통해 각각 표본평균 A,B를 구하면 각각 134.1, 145.0이 나온다.
이로부터 표본평균값의 차이가 -10.9임을 알 수 있다.
우린 이 차이가 단순히 데이터의 퍼짐인지, 신약의 효과인지를 알고 싶다.
이를 위해 가설검정을 사용하는데
가설검정에 쓸 값인 표본크기와 2개 집단을 고려한 비편향표준편차 s를 데이터로부터 산출할 수 있다.
sa를 구하는 공식도 넣기
t를 구하기 위해 1) 표본평균의 차이 2) 표본크기 3) 비편향표준편차
이 값들로 t검정에 이용하는 t값을 계산했더니 t=-2.73으로 나왔다.
한편 귀무가설이 옳다는 가정하에, t값이 따르는 t분포를 그린다.
이를 통해 우리는 t가 -2.73 이하일 확률, t가 2.73이상일 확률들의 합을 구하자
최종적으로 p값 = 0.018을 얻게 된다.
이는 귀무가설이 옳다는 가정하에 표본평균의 차이가 -10.9이상으로
극단적인 표본평균의 차이가 나타날 확률이 1.8%라는 의미이므로 드문 현상임을 알 수 있다.
가설검정에서는 p값이 유의수준 α = 0.05 와 비교하여 큰가 작은가에 따라 가설을 판단한다.
이 경우에는 p<0.05로 통계적으로 유의미한 차이가 발견되어, 신약의 효과가 있다고 판단한다.
왜 여기서는 p값이 낮아야만 유의한 것인가?
p값이 낮음으로써 어느 쪽도 지지할 수 없는 상태가 아닌 기무가설을
기각할 수 있기에 통계적으로 유의미하다고 본다.
예시
2
또 다른 데이터를 보자 예시 1과 비교하여 신약을 투여한 실험군의 혈압이 6씩 높은 사례로, 표본평균의 차이는 -4.9이다.
여기서 p값은 0.246으로 나온다. 이는 -4.9 이상의 극단적인 값이 나타날 확률이 24.6%로, 드문 일이 아니라는 것이다.
그래서 귀무가설을 기각할 수는 없다.
그래서 통계적으론 유의미한 차이를 발견할 수 없었다. 와 같이 기술한다.
5.3 가설검정 관련 그래프
오차막대
가설검정과 관련한 그래프 작성법 및 독해법에 관해 알아보자
반복이 있는 데이터에서 평균값을 계산하여 막대그래프나 산점도로 그릴 때는, 평균값에 더하여 그 위아래로 오차 막대(error bar)를 함께 그린다.
목적 | |
평균값의 확률 | 평균값 ± 표준오차(mean ± SE)를 사용한다. 앞서 평균값의 표준오차는 비편향표준편차를 표본크기 n의 제곱근으로 나눈 값 |
신뢰구간 | 평균값을 중심으로 95% 신뢰구간을 그린다 |
데이터 퍼짐 | 평균값 ± 표준편차(mean ± SD)를 사용한다. 평균값의 확률이 아니라, 단순히 데이터가 어느 정도 퍼져 있는지를 시각화하고 있을 뿐이다. |
오차 막대를 그래프에 그릴 때는, 오차 막대가 무엇을 표시하고 있는지를 그래프 범례에 반드시 기재하도록 한다.
오차 막대만으로 통계적으로 유의미한 차이가 있는지 여부를 판단할 수는 없다.
대략적인 해석은 아래의 그림에서 설명하고 있다.
오차 막대가 겹쳐 있다면, 통계적으로 유의미한 차이가 없다고 할 수 있다. 그러나 이는 어디까지나 기준이기에 p값 등의 내용을 확인하도록 한다.
위의 그림에서 차이에 대해 해석하는 방법은, 각 집단의 표본크기 n에 따라 달라진다. 표본의 크기가 작을 때는 오차 막대 2개 만큼의 차이가 있어야만 비로소 p<0.05가 된다. 반대로 표본크기가 클 때는, 차이가 오차 막대 1개 정도만 나도 p<0.05가 된다.
"통계적으로 유의미"를 나타내는 표기
그림이나 표에서는 통계적으로 유의미함을 나타내고자 *를 사용할 때가 일반적이다.
단, *가 무엇을 나타내고 있는지는 반드시 그래프 범례에 기재해야 한다.
자주 사용하는 표기로는 * : p<0.05, **: p<0.01, ***:p<0.001이 있다.
또한 유의미하지 않을 때는 N.S.(non- sigmificant)라고 적기도 한다.
5.4 제 1종 오류와 제 2종 오류
진실과 판단의 4패턴
가설검정을 시행할 때는 귀무가설과 대립가설을 고려했다.
이 두 가설은 서로에 대해 부정 관계이므로, 하나가 옳고 다른 것은 틀리는 2가지 패턴이 나온다.
가설검정에서는 p값을 계산하고 유의수준과 비교함으로써 대립가설을 지지할지, 그러지 않을지에 대해 판단한다.
판단에는
p< α로 귀무가설을 기각, 대립가설을 채택
p >= α로 귀무가설을 기각할 수 없는 것
제1종 오류 : 제 1종 오류가 일어날 확률은 α이다.
제1종 오류
평균값을 비교할 때, 실제로는 아무런 차이가 없음에도 차이가 있다고 판단해 버리는 잘못을 말한다.
p값은 귀무가설이 옳다고 했을때 실제로 얻은 데이터 이상으로 극단적인 값이 나타날 확률이었다.
따라서 확보한 데이터가 정말로 귀무가설에서 얻은 것이라면, p< α일 확률은 α가 된다.
그 때문에 α를 경계로 귀무가설을 기각하면,
귀무가설이 옳은데도 착오로 귀무가설을 기각해버리는 오류가 확률 α로 발생하게 된다.
즉, 유의수준 α의 값을 미리 정해 둠으로써, 제1종 오류가 일어날 확률을 통제할 수 있는 것이다.
과학 논문에서 사용하는 α=0.05란, 귀무가설이 옳을 때 평균적으로 20번 중에서 1번 정도는 귀무가설을 착오로 기각하고 대립가설을 채택한다는 뜻이다.
이는 잘못이 20번 중 1번 정도 일어나는 위험을 허용한다는 뜻이다.
제2종 오류
정말로 차이가 있는데도 차이가 있다고는 말할 수 없어, 귀무가설을 기각하지 않는 판단을 내리는 것을 말한다.
이는 효과가 있지만, 효과가 있다고 말할 수 없다고 판단하는 잘못이다.
제2종 오류가 일어날 확률은 β이고, 제2종 오류가 일어나지 않는 확률은 검정력(power of test) 1- β라고 한다.
일반적으로 1- β 는 80%로 설정하지만, β 는 직접 통제할 수 없다.
β는
1) 표본크기 n이 커질수록 작아진다.
2) 어느 정도의 차이를 차이로 간주하는지를 나타내는 값인 효과크기가 커짐에 따라 작아진다.
α와 β는 상충관계
우리는 α와 β 모두를 0에 가깝게 만들고 싶어 한다. 그러나 이 둘은 상충관계, 즉 한쪽이 작이지면 또 다른 한쪽은 커지는 관계가 있다.
α가 줄어들면 사실이 아닌 것을 사실이라고 말하는 확률은 줄어들지만 β가 증가하여 사실인 것을 사실이라고 말하지 않는 확률이 늘어나는 것을 알 수 있다.
이들의 크기는 표본크기 n에 따라 달라진다.
상충 관계인 것은 변함없지만, 표본크기 n이 커지면 왼쪽 아래로 곡선이 이동하므로, α를 고정하면 β가 줄어든다는 것을 알 수 있다. 즉 표본크기 n이 클수록, 정말로 차이가 있을 때에 그렇다고 판단할 확률인 검정력 1-β가 커진다
효과크기를 달리 했을 때의 α와 β
효과크기(effect size)는 일반적으로 얼마나 큰 효과가 있는지를 나타내는 지표이다.
이는 평균값의 차이를 예로 든다면, 단순히 평균값의 절대적인 차이에만 주목하는 것이 아니라, 원래 갖고 있는 모집단의 데이터 퍼짐에 대해 상대적으로 평가한 값 d=( μA - μB )/ σ 를 이용한다.
효과 크기가 작아지는 경우(평균값의 차이에 비해 표준편차가 큰 경우) 겹치는 부분이 커지므로, 효과크기 d는 작아지고 평균값의 차이는 검출하기 어려워진다.
가설검정에서는 모집단을 대상으로 검출하고 싶은 효과크기를 미리 설정하는 것이 바람직하다.
예를 들어, 약의 효과를 검증할 때 표본크기가 아주 큰 실험이어서 평균 혈압 하락이 매우 미미한 효과를 검출한다면 이는 혈압약으로서 의미가 있는 효과일까?
이 문제를 피하기 위해서는 검출하고자 하는 효과를 미리 설정하고 실험을 진행하는 것이 좋다.
값들에는 α, β, 표본크기 n, 효과크기 d의 네 값 중 셋을 결정하면, 나머지 하나는 자동으로 정해진다는 성질이 있다.
효과크기 d가 클수록 β는 작아집니다. 이는 효과크기가 클수록 분포가 겹치는 부분이 줄어들어 검출이 간단해지기 때문이다.
효과크기는 가설검정의 결과를 확인할 때도 등장한다.
이때는 모집단에 대해 미리 설정하는 효과크기와는 달리, 표본(데이터)로 계산한 값이다.
이를 p값 등의 양과 함께 기술함으로써, 어느 정도 효과인지를 평가한다.