11장 베이즈 통계
11.1 베이즈 통계의 사고방식
이전에 본 통계 방법은 빈도주의 통계(frequentist statistics)라 부르는 흐름으로 분류된다.
이번 장에서는 베이즈 통계(Bayesian statistics)라 부르는 흐름.
2가지 통계의 차이
확률로 다루는 방식이나 수리적 가정이다.
베이즈 통계의 중요성
컴퓨터를 사용함으로써 복잡한 통계 모형도 추정할 수 있기에
중요도는 더욱 높아짐.
불확실성
빈도주의 흐름 : 모집단에서 표본을 추출하는 경우
- 이런 불확실성에 대해 고정된 파라미터 θ를 가진 확률분포(모집단)을 상정하여, 데이터 x가 나타날 확률 p(x| θ)로 표현함.
- 활용 예시
- 가설검정 : 극단적인 값이 나타날 확률
- 최대가능도 방법 : 고정된 파라미터에서 확률을 최대화하는 방법
- 활용 예시
- 무한한 반복 실행== 객관적인 빈도를 나타낼 수 있음
베이즈 통계는 확률을 "얼마나 확신하는지"로 해석하는 원리이다.
- 모집단분포를 모형화시, 파라미터 θ가 어느 정도로 알고 있는지를 확률분포로 나타낸다.
- θ를 아무것도 모른다면, 다양한 θ가 나오기에 불확실성이 높아진다.
- θ에 관한 정보를 알고 있다면, 불확실성이 줄어들고 θ의 확률분포가 달라진다.
베이즈 통계의 이미지
- 목표 : θ를 알아보는 것
- 처음에 아무것도 모르는 경우는 여러 θ에 따른 확률분포를 그릴 수 있다.
- 그래서 균등분포로 생각함.
- sample을 통해 θ에서 sample mean을 어느정도로 예측 가능
- 그에 따라 확률분포가 달라짐.
통계 모형
- 정의 : 통계 모형의 목적과 방침은 지금까지 소개한 방법들과 똑같이, 데이터의 발생원인 모집단의 실제 분포 q(x) 아는 것
- 방법 : 실제 분포 q(x)를 추측하기 위해, 얻은 데이터들을 이용한다.
- 이 방법을 통계적 추론(statistical inference)라 한다.
- 모집단의 실제 분포 q(x)를 직접 알 수 없기에, 이에 기초한 통계 모형 p(x)를 생각한다.
- p(x)와 q(x)가 어느 정도로 들어맞는지를 정량화함으로써 통계모형 p*(x)의 적합도를 평가한다.
- 이는 현상 이해나 예측을 위한 시도
- p(x|θ) : 파라미터 θ에 따라 통계 모형의 형태가 달라지기에, 하나를 정한 경우에 확률분포의 형태를 하나로 정할 수 있다.
- mean 10, std 1로 하나의 확률분포를 만들 수 있다.
- 최대가능도 방법, 베이즈 추정을 이용한 추측은, 이러한 파라미터 θ를 결정하는 일련의 방법이다.
최대가능도 방법
- 어떤 파라미터 θ에 대해 데이터 x1,x2,xn이 얼마나 나타나기 쉬운가를, 통계모형을 이용해 다음과 같이 나타낼 수 있다.
- p( x1,x2,...,xn| θ)
- 위의 p( x1,x2,...,xn| θ)의 역관계로 데이터를 고정하고, 파라미터 θ의 함수라 가정한 경우
- L: 가능도, 가능도함수
- L(θ| x1,x2,x3,...,xn) = p(x1,x2,....,xn| θ)
- 이는 얻은 데이터를 생성할 가능성이 높은 θ를 결정하는 것이, 최대가능도 방법 또는 최대가능도 추정이다.
- θ_hat = arg max L(θ| x1,x2,x3,...,xn)
- θ_hat : 최대가능도 추정량
- θ_hat을 대입한 p(x| θ_hat )를 예측분포 p*(x)라 한다.
베이즈 통계의 사고방식
베이즈 통계에서는 통계 모형의 파라미터 θ를 확률변수로 취급하여 그에 대한 확률분포를 생각한다.
추정 : 데이터를 통해 파라미터가 갱신되는 형태이다.
추정 방법
- 분석자가 데이터를 알기 전 단계의 θ 확률분포, 즉 사전분포 p(θ)를 마련하다.
- 데이터를 알고 난 후의 θ의 확률분포, 즉 사후분포 p(θ|x)를 구한다.
- 아래는 베이즈 정리이다.
베이즈 정리
이 정리는 조건부 확률로 간단하게 도출할 수 있는 관계식이다.
우변의 분자 : 어떤 파라미터를 가진 통계 모형에서 데이터를 얻을 확률과 사전 분포p( θ)의 곱 형태이다.
분모 : 데이터 x를 얻을 확률이다.
베이즈 통계
목적 : 사전분포와 가능도에서 사후분포를 구하는 것
어려운 점 : 분모를 구하는 것이 어렵다.
- sol : MCMC방법이란 난수 발생 알고리즘을 대신 이용하여, 근사적으로 사후분포를 구한다.
- 가능한 이유 : p(x)를 θ가 포함되지 않는 정수로 보면, 다음처럼 분모의 계산을 피할 수 있기 때문이다.
사전분포
사전분포 p(θ)는 데이터 x를 얻기 전에 파라미터 θ가 어떤 분포인가를 미리 실험자나 해석자가 설정해야 하는 분포이다.
- 비판받은 이유 : 주관적으로 설정해야 한다는 점
- 대응책
- 어떤 정보도 가지지 않을 법한 분포를 사전분포로 가정하는 것
- 균등분포는 잘 나오거나 나오지 않는 경향이 없기에 아무 정보도 없다.
- 균등을 베이즈 추정에서 무정보 사전분포로서 이용한다.
- 이후에 나오는 데이터로 파라미터에 관한 정보에 반영할 수 있다.
베이즈 추정의 예측분포
베이즈 추정으로 나온 θ_hat의 사후분포 p(x| θ_hat )로 예측분포 p*(x)를 만들 수 있다.
q(x)와 p*(x)가 어느 정도로 일치하는가를 통해, p*(x)의 적합도를 정량화할 수 있게 된다.
정보량 기준
실제 모집단 q, 예측분포 p*가 어느 정도 일치하는가를 평가할 때는 2개의 확률밀도함수 f(x)와 g(x)를 비교하는 쿨백-라이블러 발산(KL divergence)을 이용한다.
이 g,f가 가까울수록 작은 값을 가지게 된다. f=g일 경우, D(f||g)=0인 성질이 있다.
D가 작은 값일수록 p*이 q를 잘 나타낸다고 말할 수 있다. >> 예측하는 성능도 높아진다.
D(q||p*)를 작게 한다는 것은
AIC = -2logL(θ) + 2k 를 작게 만드는 것이다.
AIC와 같은 모형의 좋고 나쁨을 평가하는 지표를 정보량 기준이라 한다.
보즈도건의 기준(CAIC) : 매개변수 과다 모델에 대해 AIC보다 더 강력한 페널티를 적용하며, -2 제한 로그 가능성을 매개변수 수에 1을 곱한 값에 케이스 수의 로그를 더한 값으로 조정한다. 샘플 크기가 증가함에 따라 CAIC는 BIC로 수렴한다.
슈워츠의 베이지안 기준(BIC)은 매개변수 과다 모델에 대해 AIC보다 더 강력한 패널티를 적용하며, -2 제한 로그 가능성을 매개변수 수에 사례 수의 로그를 곱한 값으로 조정한다. 베이지안 정보 기준으로도 알려져 있다.
베이즈 추정의 경우, D(q||p*)를 작게 하는 것은 WAIC(Widely Applicable Information Criteria)를 작게 하는 것과 같다.
WAIC : 복잡한 모형(예를 들어 계층구조를 가진 모형이나 숨은 변수가 있는 모형)에서도 사용 가능한 특징을 가진, 최근 쓰이기 시작한 정보량 기준.
베이즈 통계의 이점
- 추정 결과(=통계 모형의 파라미터)를 분포로 얻을 수 있다는 점
- '파라미터가 이 범위에 있을 확류은 몇%'와 같이 정량적인 평가가 가능하다.
- ex) 2개의 모집단평균의 차이가 3.5이상일 확률이 80%이다.
- 베이즈 통계에서 이용하는 계산 방법인 MCMC 방법이 난수를 발생시켜 > 사후분포를 따르는 파라미터를 얻기에 복잡한 모형화가 가능하다.
- 이는 최대가능도 추정의 한계를 대처하는 방안으로 쓰인다.
- MCMC방법은 시뮬레이션의 일종으로, 똑같은 해석을 수행 시 > 해석 결과가 조금씩 다른 모습을 보여준다.
- 이 차이는 미미하지만, 가정이 부적절하다면 분포를 제대로 파악하지 못하는 일 발생
11.2 베이즈 통계 알고리즘
MCMC 방법
이 식을 통해 사후분포를 구하고, 통계 모형의 파라미터가 어떤 분포인지를 아는 것이 목표이다.
사후 분포를 위의 식으로 구하는 방법은 어렵기에, MCMC 방법(Markov Chain Monte Carlo method)이라는 계산 알고리즘을 이용한다.
MCMC 방법 : 특정 확률분포를 따르는 난수 발생 알고리즘
베이즈 통계에서 MCMC 방법을 이용하는 예시
- 사후분포를 따르는 난수를 발생
- 그 난수의 집합을 관찰하여 사후분포의 성질을 분석
몬테카를로 방법
난수를 여러 개 발생시켜 시뮬레이션하여 근사해를 얻는 방법이다.
사용 방법
- 난수를 발생시킨다.
- 난수 발생으로 나온 것 중에서 해당 영역 내의 것들로 비율을 얻는다.
- 값을 원하는 경우 전체 영역의 넓이를 해당 영역 내에 있는 점의 비율에 곱해준다.
장점
- 난수를 발생시킨 뒤에 그 수를 직접 세어 근사해를 구하는 방법이므로, 엄밀한 해를 구하기 어려운 경우에 해를 얻을 수 있다.
마르코프 연쇄
어떤 상태에서 다른 상태로 변화하는 현상을 확률로 표현한 모형의 일종
특징
- 현재 상태에서 다음 시각으로 변화하는 확률이, 현재 상태에만 의존한다.
- Ex) 날씨의 경우, 어제의 날씨보다는 오늘 날씨가 내일의 날씨를 결정하는데 확률적으로 정해진다.
MCMC 방법의 예
깁스 표집(Gibbs sampling) : 구체적인 계산은 한쪽 변수를 고정한 뒤, 고정하지 않은 변수를 확률적으로 움직이는 작업을 번갈아 반복하는 순서로 이루어진다.
초기상태에는 수렴할 분포와 떨어진 곳에 표시한다. 이를 통해 초기 상태에서 수렴하기까지의 기간은 버려야 하는데, 이 기간을 burn-in ,warm-up이라 부른다.
메트로폴리스-헤이스팅스 알고리즘
해빌토니안 몬테카르로 방법
stan : MCMC 방법 전문 소프트웨어이다.
11.3 베이즈 통계 사례
이표본 평균값 비교
1~1000 : burn-in
1001~ 21,000 : 단계를 사용
체인 : "각 21,000단계의 시행"을 독립적으로 진행하는 경우
2만 스텝, 5체인 = 10만 개의 난수 분포가 위의 예시이다.
위의 그래프로 얻을 수 있는 것
- 평균값인 사후기댓값(EAP, expected a posteriori)
- 최빈값인 사후최빈값(MAP, maximum a posteriori probability)을 계산할 수 있다.
- 점이 아닌 폭을 이용한 추정으로 (1- α)% 신뢰구간 또는 확신구간(CI, credible interval)을 얻을 수도 있다.
- α= 0.05라면 95% 확률로 통계모형의 파라미터는 이 범위에 있음을 나타내는 것.
이 그래프에선 CI, EAP뿐만 아니라, 평균값의 차이가 -10 이하가 될 확률은 98.7%식의 정량적인 논의가 가능하다.
푸아송 회귀의 예
아래는 일반화선형모형(GLM)의 푸아송 회귀를 베이즈 통계로 추정하였고, 이에 대한 결과로 파라미터 a,b의 사후분포를 얻을 수 있다.
계층적 베이지안 모형
GLM을 이전에 추정하는 예까지 소개했으니, 다음으로는 개체 차이를 적용한 일반화선형혼합모형(GLMM)을 베이즈 통계적으로 생각해 보겠다.
8장의 GLMM에선 개체 차이를 나타내는 파라미터 ri를 절편항이나 기울기를 임의효과로 삼아 모형에 적용했다.
베이즈 통계에선 ri도 확률변수로 취급하여, 그 사후 분포를 구하게 한다.
방법
- 사후분포를 얻기 위해 사전분포 설정
- ri의 사전분포는 N(0,s^2)을 따르는 정규분포라고 가정
- 베이즈 통계에선 s를 하나의 값이 아닌, 사후분포로 추정한다.
- 이때는 사전분포가 있어야 하므로, 무정보 사전분포로 균등분포를 둔다.
이처럼 계층 차이 ri의 사전분포 p(ri|s)의 형태를 결정하는 파라미터 s가 있고, 이 s에 관하여 사전분포 p(s)가 설정되었을 때, p(ri|s)를 계층적 사전분포라고 부른다.
이때 p(s)를 초사전분포라 부른다.
이러한 계층적 사전분포를 사용하는 베이지안 모형을, 계층적 베이지안 모형이라 한다.