통계101_10장

카테고리 없음

통계101_10장

오늘도 가보자잇 2024. 11. 2. 04:25

10장 인과와 상관

10.1 인과와 상관

인과 그래프 : 원인과 결과를 원과 화살표로 나타낸 것

인과관계 네트워크 : 인과 그래프의 모음

인과관계의 가치

목적을 이루기 위한 구조(메커니즘)에 관한 지식제공
인과관계의 이해 == 세상의 구조를 이해

인과관계의 규명은 실험 수행, 통계분석이 필요한 이유이다.

변수 사이의 관계

인과관계 : 원인과 결과의 관계 - 원인->결과
상관관계 : 데이터에서 보이는 관련성(association)을 말한다.
- 상관에는 한쪽이 커지면 다른 쪽이 커지는(작아지는) 관계인 선형이 대표적이다.
- 일반화된 버전 : 어떤 특정한 조합이 일어나기 쉬우면 : 독립이 아님을 뜻한다.

상관과 인과의 차이

관찰 연구를 통해 얻은 데이터를 통해 얻을 수 있는 관계성은 상관.
- 상관을 인과로 보기 힘든 이유
  - 중첩요인(confounder: 두 변수에 관련된 외부 변수)가 존재할 가능성
  - 역방향 인과관계의 가능성
인과를 볼 수 있는 방법
실험 연구
- 학생에게 원인의 random variable로 무작위로 할당한 후
- 이후에 결과를 조사한다.
위는 무작위 통제 실험(randomized control trial,RCT)의 일종
- 인과관계를 간파할 수 있는 이유
  1. 원인의 조건을 무작위 할당
  2. 기타 요인의 영향을 제거

허위상관(spurious correlation)

상관은 있지만 인과는 없을 경우

인과는 있지만, 상관이 없는 경우

주사위를 던지는 행위와 그에 따라 나오는 값

인과관계를 앎으로써 얻는 것

변수간의 어떤 메커니즘이 작용하는 지에 대한 이해
원인 변수의 어떤 요인이 결과 변수에 어떤 영향을 주는 지에 대한 깊은 이해.

인과관계로 할 수 있는 것

개입 : 원인 변수를 변화시킴으로써, 결과 변수를 바꾸기.
인과가 없이, 상관만 있는 경우
- 한쪽 변수의 변화가 다른 한쪽 변수의 변화로 이어지지 않는다.

상관관계로 할 수 있는 것

상관관계를 통해 인과관계의 존재성을 인지할 수 있음.
예측 : 한쪽 변수로부터 또 다른 변수를 알 수 있음.
- 개입의 의미가 아니다.
- 무방향성 : 변수의 방향성이 없기에, 아무 변수로 예측이 가능.

허위상관의 예시

아이스크림 매출, 익사 사고 수 : 기온(중첩요인)
- 중첩요인이 되기 쉬운 변수
  - 시간또는 나이 : 시간과 함께 증가하는 변수들이 서로 양의 상관을 가지는 경우.
초콜릿 소비량, 노벨상 : GDP

우연히 생긴 상관 - 정말 아무 연관이 없는 사건의 관계

10.2 무작위 통제 실험

인과관계를 밝히는 방법

인과관계를 밝히기 어려운 이유 : 중첩요인

중첩요인들로 인과를 확인하기 어려운 경우

- 중첩요인 중 나머지는 통제하고 하나를 동일하지 않게 하는 방법

인과 추정 방법

1. 무작위 통제 실험

2. 경향 점수 짝짓기

- 이 방법들은 알고자 하는 요인 이외의 요인은 동일하게 한다는 아이디어가 바탕.

무작위 통제 실험(randomized control trial, RCT)

- 알고자 하는 요인인 변수 X에 표본을 무작위로 할당하고 개입 실험을 수행함.

- 변수 Y와 비교하는 방법

효과

중첩요인을 확인하지 않고도, 효과의 무작위성을 이용하여 알고자 하는 변수의 효과만 추정 가능함.

통계학에서의 인과관계 수식화

Y(1)i = i 객체가 특정 변수를 한 경우, Y(0)i는 i객체가 특정 변수를 하지 않은 경우

할 수 없는 이유

한 대상에 개입의 유무를 동시에 볼 수 없기 때문
- 인과 추론의 근본 문제 : 인과효과의 조사는 원리상 불가능하다는 한계
  - Sol : 개인 수준인 아닌 집단의 수준으로 생각 -> 인과의 평균적인 효과 고려
  - 한계 : 이 경우에도 다이어트를 했을 때와 하지 않았을 때 모두를 관찰할 수 없다.

10.3의 한계는

다이어트를 하거나 하지 않았을 때가 아닌

"다이어트하는 집단에 속한 사람"과 "하지 않는 집단에 속한 사람"의 평균값의 차이를 나타낸 것.

이를 해결하기 위해, 조건부 기댓값을 이용한다.

이 공식은 실험 시작 직전에 사람들을 선택하는 과정이다.

선택된 사람들에 대한 평균값을 나타낸 것

이는 다이어트를 하는 사람과 하지 않는 사람의 차이로 비교함으로써 인과효과를 추정할 수 있다.

실험방법 : 이후 시간이 흐른 후에 t검정으로 몸무게 비교

선택편향

정의 : 관측 가능한 개입 효과가 원래 알고자 하는 효과에 편향이 더해질 때, 이 편향을 말한다.

- 다이어트에 의욕이 넘치는 이전에 다이어트를 하지 않았던 사람

10.3 통계적 인과 추론

위의 무작위 통제 실험의 문제점

개입 실험의 윤리 문제
개입 자체가 불가능한 상황인 경우

담배를 피우라는 강요 : 윤리 문제

담배 가격 : 비용

담배 피우는 사람들 : 큰 표본 구하기의 어려움

이에 대해 통계적 인과 추론으로 대처

다중회귀
- 원인변수 : 설명변수x
- 결과변수 : 반응변수 y
- 설명변수 : 중첩요인 z
- 위의 식처럼 bi는 다른 설명변수와의 상관을 제거한 xi의 영향이라고 해석할 수 있는 인과효과를 얻을 수 있다.
- Point : 중첩요인을 측정해 모형에 도입하는 것이 중요.
  - 조정 : 중첩요인을 포함하는 것
- 주의점 : 변수의 투입에 따라 인과효과가 달라짐
  - 해결안 :
    1. 도메인 지식이나 선행 연구를 기반하여 상정되는 인과 그래프
    2. 그래프와 뒷문(backdoor) 기준이라 불리는 기준에 따라 모델 투입 여부 결정

뒷문 기준이란? X와 Y 사이의 인과효과를 파악하는데 방해가 되는 경로를 의미한다.

뒷문 기준을 만족하는 것은 (x,y)가 주어졌을 때, x의 자손이 z에 있는 어떤 노드에도 포함되지 않으면서 z가 x로 향하는 모든 경로를 차단할 때 z는 x의 뒷문 기준을 만족한다.

뒷문 기준을 만족하는 조건

1. Z를 막으면 X와 Y 사이의 허위 경로를 모두 막을 수 있다.

2. Z를 막더라도 X와 Y 사이에 직접 연결된 경로는 그대로 남겨두어야 한다.

3. Z를 막았을 때 새로운 허위경로가 생겨서는 안 된다.

출처: https://blessedby-clt.tistory.com/79 [데이터 탐험 노트:티스토리]

층별 해석
- 정의 : 중첩요인을 기준으로 데이터를 몇 가지 그룹(층)으로 나누어, 각 층 안에서 중첩요인의 효과를 가능한 한 작게 하는 방법
  - 다중회귀와의 다른 점
    - 다중회귀 : 각각 설명변수가 독립으로 인과효과를 갖는다고 가정.
    - 층별 해석 : 층마다 다른 인과효과를 추정할 수 있음.
  - 주의점
    - 층을 구분할 중첩요인을 고를 때 자의적이라는 점
    - 중첩요인이 연속인 경우, 이를 이산화하는 방법도 자의적이라는 점

경향 점수 짝짓기
- 짝짓기(matching)
  - 원인변수=0인 집단과 원인변수=1인 집단에서 비슷한 중첩요인을 가진 데이터를 골라 쌍으로 만드는 짝짓기(matching)라는 방법이 있다.
  - 중첩요인 값이 비슷한 데이터들을 짝지으면, 중첩요인 효과를 없애고 무작위 통제 실험과 비슷한 효과를 얻을 수 있다.
- 경향 점수 짝짓기(Propensity Score Matching, PSM)
  - 경향 점수라는 1차원 값을 기준으로 쌍을 고르는 방법으로 사용한다.
  - 경향 점수 : 원인변수=1인 할당되는 확률
  - 순서
    1. 반응변수를 원인변수(0 or 1)로 한다.
    2. 중첩요인을 설명변수로 한 로지스틱 회귀를 실행
    3. "어떤 중첩요인을 원인변수=1에 할당할 지"를 평가
  - 장점
    - 여러 개의 중첩요인을 동시에 다룰 수 있다는 이점
  - 고른 쌍을 통해 반응변수의 차이를 계산하고, 그 평균값을 취해 효과추정량으로 삼는다.

이중 차분법

서로 다른 집단 A,B에 대해

A에는 처리를 가하고, B에는 가하지 않은 연구 설계에서

중첩요인에 따라 인과효과의 추정이 어려운 경우

Sol : 시간 축의 도입, 집단 간 차이에 대해 다시 한번 처리 전후의 차분(차이)을 취함으로써 인과효과를 추정할 수 있다.
주의점
- A에 처리를 가하지 않을 경우, B와 같은 정도로 증가한다는, 평행 경향이라는 가정이 필요하다.

현재글통계101_10장

Data Study aream-data-study 님의 블로그 입니다.

Data Study

aream-data-study 님의 블로그 입니다.

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Data Study

통계101_10장

10장 인과와 상관

10.1 인과와 상관

10.2 무작위 통제 실험

무작위 통제 실험(randomized control trial, RCT)

선택편향

10.3 통계적 인과 추론

'카테고리 없음'의 다른글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역