(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 4
[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.
(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 3에서 이어집니다.
PART 4. 패널데이터
8장 이중차분법
패널데이터
- 시간에 따라 반복해서 관측되는 데이터 구조 → 랜덤화가 불가능할 때 인과효과를 식별할 수 있는 대안
- 여러 기간에 걸쳐 동일 실험 대상을 관측함으로써, 대상 및 시간에 걸쳐 상관관계를 활용하여 누락된 잠재적 결과 Y(1)을 추정할 수 있다.
- 여러 시간대 t에 걸친 여러 실험 대상 i
- 시간 벡터 t = { 1, 2, ... , Tpre, Tpre+1, ..., T }
- 개입(처치)은 개입 후 기간(t > Tpre)의 실험군(D = 1)에만 발생
- 처치변수 및 개입 후에 대한 조합 W = D * 1(t > Tpre)
이중차분법(DID)
- 관측된 실험군 기준값에 대조군 결과 추세를 보정하여, 누락된 잠재적 결과인 E[Y(0) | D = 1, Post = 1]를 추정하는 것
- E[Y(0) | D = 1, Post = 1]에 대한 식을 ATT에 대입하면, 차이의 차이(Difference In Difference)를 구할 수 있기 때문에 이를 DID 추정량이라고 부른다.
- 공변량 추가, 시간에 따른 효과 변동, 시차 도입 설계 등으로 확장하여 사용이 가능하다.
< DID 추정값 계산과정 >
- 데이터의 기간을 개입 전과 개입 후로 나눈다.
- 실험 대상을 실험군과 대조군으로 나눈다.
- 4개의 셀(개입 전 실험군/대조군, 개입 후 실험군/대조군) 모두의 평균을 계산한다.
동일한 실험 대상이 여러 번 나타나므로, 각 사건이 독립적이고 동일하게 분포되지 않음
→ 실제 표본의 크기는 N인데, 회귀분석의 표준오차시엔 N*T의 표본 크기를 가정하고 계산
→ 패널데이터에서의 신뢰구간 추정이 어려운 이유
→ 실험 대상별 군집화로 해결한다!
< 이중차분법의 기본 가정 >
- 평행 추세 가정: 처치가 없으면 평균적으로 실험군과 대조군의 결과 추세가 동일할 것이다.
- 비기대 가정: 실험군과 대조군은 서로 독립적이고 비교할 수 있다.
- 강외생성 가정: 시간에 따라 변하는 교란 요인, 피드백, 이월 효과 등이 없다.
- 시차 도입을 설계한 이중차분법에서는 추가적으로 "시간에 걸쳐 효과가 동일하다"는 가정도 필요하다.
9장 통제집단합성법
이중차분법은 기간 T보다 상대적으로 많은 실험 대상 N이 있는 경우 잘 작동하지만, 그 반대의 경우는 잘 작동하지 못한다.
→ 통제집단합성법은 아주 적은 수의 실험 대상(처치 받는 대상이 하나일 때도 포함)에서도 잘 작동하도록 설계되었다.
통제집단합성법:
처치 이전 기간을 사용하여 대조군을 결합함으로써, 처치가 없을 때의 실험군과 비슷한 가상의 대조군을 만드는 방식
주의: 표본별로 크기가 다르면 표본 규모에 따라 정규화가 필요하다.
ex) 도시간 광고 성과를 분석하는데, 상파울루는 인구가 1200만 명이 넘는 매우 큰 도시로 상파울루의 다운로드 수에 맞춰 다른 도시들을 결합해 가상의 대조군을 구성하는 것이 어렵다. → 도시 인구수로 앱 다운로드 수를 나눠서 정규화된 결과를 만든 후, 가상의 대조군을 구성해야 한다.
수평 회귀분석
- 통제집단합성법은 대조군의 결과를 특성으로 사용해서 실험군의 평균 결과를 예측하는 회귀라고 볼 수 있다.
- 실험 대상을 마치 공변령처럼 사용하므로, 수평 회귀분석이라고도 한다.
합성 이중차분법
- 통제집단합성법과 이중차분법의 결합하는 방법
- 가상의 대조군을 구성하고 이를 이중차분법에서 대조군으로 사용하는 것
- 합성 이중차분법 활용시의 장점
- 이중차분법에 필요한 평행 추세 가정이 훨씬 타당성을 가지게 된다.
- 서로 다른 수준의 Y0를 가질 수 있어, 이중차분법을 사용함으로써 통제집단합성법은 실험군의 추세를 파악하는 데 더 집중할 수 있다.
(참고) casualimpact 라이브러리
- 통제집단합성법의 핵심 개념을 활용하여 개발한 라이브러리
- 처치 받지 않은 다른 시계열 데이터를 바탕으로 베이지안 구조적 시계열 모델을 활용해 E[Y(0)|D=1]에 대한 반사실 시계열을 추정
(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 5에서 이어집니다.