[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.
(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 3에서 이어집니다.
PART 4. 패널데이터
8장 이중차분법
패널데이터
- 시간에 따라 반복해서 관측되는 데이터 구조 → 랜덤화가 불가능할 때 인과효과를 식별할 수 있는 대안
- 여러 기간에 걸쳐 동일 실험 대상을 관측함으로써, 대상 및 시간에 걸쳐 상관관계를 활용하여 누락된 잠재적 결과 Y(1)을 추정할 수 있다.
- 여러 시간대 t에 걸친 여러 실험 대상 i
- 시간 벡터 t = { 1, 2, ... , Tpre, Tpre+1, ..., T }
- 개입(처치)은 개입 후 기간(t > Tpre)의 실험군(D = 1)에만 발생
- 처치변수 및 개입 후에 대한 조합 W = D * 1(t > Tpre)
이중차분법(DID)
- 관측된 실험군 기준값에 대조군 결과 추세를 보정하여, 누락된 잠재적 결과인 E[Y(0) | D = 1, Post = 1]를 추정하는 것
- E[Y(0) | D = 1, Post = 1]에 대한 식을 ATT에 대입하면, 차이의 차이(Difference In Difference)를 구할 수 있기 때문에 이를 DID 추정량이라고 부른다.
- 공변량 추가, 시간에 따른 효과 변동, 시차 도입 설계 등으로 확장하여 사용이 가능하다.
< DID 추정값 계산과정 >
- 데이터의 기간을 개입 전과 개입 후로 나눈다.
- 실험 대상을 실험군과 대조군으로 나눈다.
- 4개의 셀(개입 전 실험군/대조군, 개입 후 실험군/대조군) 모두의 평균을 계산한다.
더보기
동일한 실험 대상이 여러 번 나타나므로, 각 사건이 독립적이고 동일하게 분포되지 않음
→ 실제 표본의 크기는 N인데, 회귀분석의 표준오차시엔 N*T의 표본 크기를 가정하고 계산
→ 패널데이터에서의 신뢰구간 추정이 어려운 이유
→ 실험 대상별 군집화로 해결한다!
< 이중차분법의 기본 가정 >
- 평행 추세 가정: 처치가 없으면 평균적으로 실험군과 대조군의 결과 추세가 동일할 것이다.
- 비기대 가정: 실험군과 대조군은 서로 독립적이고 비교할 수 있다.
- 강외생성 가정: 시간에 따라 변하는 교란 요인, 피드백, 이월 효과 등이 없다.
- 시차 도입을 설계한 이중차분법에서는 추가적으로 "시간에 걸쳐 효과가 동일하다"는 가정도 필요하다.
'데이터' 카테고리의 다른 글
(Dataquest) Spark를 활용한 대규모 데이터셋 분석 (1) | 2024.11.24 |
---|---|
(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 3 (0) | 2024.11.22 |
(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 2 (1) | 2024.11.09 |
그래프 신경망(Graph Neural Network, GNN)이란 무엇인가? (0) | 2024.11.03 |
(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 1 (2) | 2024.10.20 |