데이터

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 4

Yuniverse. 2024. 12. 4. 08:05

 

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 3에서 이어집니다.

 


PART 4. 패널데이터

8장 이중차분법

패널데이터

- 시간에 따라 반복해서 관측되는 데이터 구조 → 랜덤화가 불가능할 때 인과효과를 식별할 수 있는 대안

- 여러 기간에 걸쳐 동일 실험 대상을 관측함으로써, 대상 및 시간에 걸쳐 상관관계를 활용하여 누락된 잠재적 결과 Y(1)을 추정할 수 있다.

Yit(1)은 관측 가능하므로, 누락된 잠재적 결과를 대체함으로써 ATT를 추정할 수 있게 된다.

 

  • 여러 시간대 t에 걸친 여러 실험 대상 i
  • 시간 벡터 t = { 1, 2, ... , Tpre, Tpre+1, ..., T }
  • 개입(처치)은 개입 후 기간(t > Tpre)의 실험군(D = 1)에만 발생
  • 처치변수 및 개입 후에 대한 조합 W = D * 1(t > Tpre)

 

 

 

이중차분법(DID)

- 관측된 실험군 기준값에 대조군 결과 추세를 보정하여, 누락된 잠재적 결과인 E[Y(0) | D = 1, Post = 1]를 추정하는 것

- E[Y(0) | D = 1, Post = 1]에 대한 식을 ATT에 대입하면, 차이의 차이(Difference In Difference)를 구할 수 있기 때문에 이를 DID 추정량이라고 부른다.

- 공변량 추가, 시간에 따른 효과 변동, 시차 도입 설계 등으로 확장하여 사용이 가능하다.

이중차분법

 

< DID 추정값 계산과정 >

  1. 데이터의 기간을 개입 전과 개입 후로 나눈다.
  2. 실험 대상을 실험군과 대조군으로 나눈다.
  3. 4개의 셀(개입 전 실험군/대조군, 개입 후 실험군/대조군) 모두의 평균을 계산한다.
더보기

동일한 실험 대상이 여러 번 나타나므로, 각 사건이 독립적이고 동일하게 분포되지 않음

→ 실제 표본의 크기는 N인데, 회귀분석의 표준오차시엔 N*T의 표본 크기를 가정하고 계산 

→ 패널데이터에서의 신뢰구간 추정이 어려운 이유

→ 실험 대상별 군집화로 해결한다!

 

< 이중차분법의 기본 가정 >

  • 평행 추세 가정: 처치가 없으면 평균적으로 실험군과 대조군의 결과 추세가 동일할 것이다.
  • 비기대 가정: 실험군과 대조군은 서로 독립적이고 비교할 수 있다.
  • 강외생성 가정: 시간에 따라 변하는 교란 요인, 피드백, 이월 효과 등이 없다.
  • 시차 도입을 설계한 이중차분법에서는 추가적으로 "시간에 걸쳐 효과가 동일하다"는 가정도 필요하다.