(스터디) 실무로 통하는 인과추론 with 파이썬

데이터

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 4

Yuniverse. 2024. 12. 4. 08:05

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 3에서 이어집니다.

PART 4. 패널데이터

8장 이중차분법

패널데이터

- 시간에 따라 반복해서 관측되는 데이터 구조 → 랜덤화가 불가능할 때 인과효과를 식별할 수 있는 대안

- 여러 기간에 걸쳐 동일 실험 대상을 관측함으로써, 대상 및 시간에 걸쳐 상관관계를 활용하여 누락된 잠재적 결과 Y(1)을 추정할 수 있다.

Yit(1)은 관측 가능하므로, 누락된 잠재적 결과를 대체함으로써 ATT를 추정할 수 있게 된다.

여러 시간대 t에 걸친 여러 실험 대상 i
시간 벡터 t = { 1, 2, ... , Tpre, Tpre+1, ..., T }
개입(처치)은 개입 후 기간(t > Tpre)의 실험군(D = 1)에만 발생
처치변수 및 개입 후에 대한 조합 W = D * 1(t > Tpre)

이중차분법(DID)

- 관측된 실험군 기준값에 대조군 결과 추세를 보정하여, 누락된 잠재적 결과인 E[Y(0) | D = 1, Post = 1]를 추정하는 것

- E[Y(0) | D = 1, Post = 1]에 대한 식을 ATT에 대입하면, 차이의 차이(Difference In Difference)를 구할 수 있기 때문에 이를 DID 추정량이라고 부른다.

- 공변량 추가, 시간에 따른 효과 변동, 시차 도입 설계 등으로 확장하여 사용이 가능하다.

< DID 추정값 계산과정 >

데이터의 기간을 개입 전과 개입 후로 나눈다.
실험 대상을 실험군과 대조군으로 나눈다.
4개의 셀(개입 전 실험군/대조군, 개입 후 실험군/대조군) 모두의 평균을 계산한다.

동일한 실험 대상이 여러 번 나타나므로, 각 사건이 독립적이고 동일하게 분포되지 않음

→ 실제 표본의 크기는 N인데, 회귀분석의 표준오차시엔 N*T의 표본 크기를 가정하고 계산

→ 패널데이터에서의 신뢰구간 추정이 어려운 이유

→ 실험 대상별 군집화로 해결한다!

< 이중차분법의 기본 가정 >

평행 추세 가정: 처치가 없으면 평균적으로 실험군과 대조군의 결과 추세가 동일할 것이다.
비기대 가정: 실험군과 대조군은 서로 독립적이고 비교할 수 있다.
강외생성 가정: 시간에 따라 변하는 교란 요인, 피드백, 이월 효과 등이 없다.
시차 도입을 설계한 이중차분법에서는 추가적으로 "시간에 걸쳐 효과가 동일하다"는 가정도 필요하다.

9장 통제집단합성법

이중차분법은 기간 T보다 상대적으로 많은 실험 대상 N이 있는 경우 잘 작동하지만, 그 반대의 경우는 잘 작동하지 못한다.

→ 통제집단합성법은 아주 적은 수의 실험 대상(처치 받는 대상이 하나일 때도 포함)에서도 잘 작동하도록 설계되었다.

통제집단합성법:
처치 이전 기간을 사용하여 대조군을 결합함으로써, 처치가 없을 때의 실험군과 비슷한 가상의 대조군을 만드는 방식

주의: 표본별로 크기가 다르면 표본 규모에 따라 정규화가 필요하다.

ex) 도시간 광고 성과를 분석하는데, 상파울루는 인구가 1200만 명이 넘는 매우 큰 도시로 상파울루의 다운로드 수에 맞춰 다른 도시들을 결합해 가상의 대조군을 구성하는 것이 어렵다. → 도시 인구수로 앱 다운로드 수를 나눠서 정규화된 결과를 만든 후, 가상의 대조군을 구성해야 한다.

수평 회귀분석

통제집단합성법은 대조군의 결과를 특성으로 사용해서 실험군의 평균 결과를 예측하는 회귀라고 볼 수 있다.
실험 대상을 마치 공변령처럼 사용하므로, 수평 회귀분석이라고도 한다.

합성 이중차분법

통제집단합성법과 이중차분법의 결합하는 방법
가상의 대조군을 구성하고 이를 이중차분법에서 대조군으로 사용하는 것
합성 이중차분법 활용시의 장점
1. 이중차분법에 필요한 평행 추세 가정이 훨씬 타당성을 가지게 된다.
2. 서로 다른 수준의 Y0를 가질 수 있어, 이중차분법을 사용함으로써 통제집단합성법은 실험군의 추세를 파악하는 데 더 집중할 수 있다.

(참고) casualimpact 라이브러리

- 통제집단합성법의 핵심 개념을 활용하여 개발한 라이브러리

- 처치 받지 않은 다른 시계열 데이터를 바탕으로 베이지안 구조적 시계열 모델을 활용해 E[Y(0)|D=1]에 대한 반사실 시계열을 추정

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 5에서 이어집니다.

'데이터' 카테고리의 다른 글

Databricks에서 원하는 조건의 순서에 맞게 배열 정렬하기 (1)	2025.01.12
(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 5 (1)	2024.12.28
(Dataquest) Spark를 활용한 대규모 데이터셋 분석 (1)	2024.11.24
(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 3 (0)	2024.11.22
(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 2 (1)	2024.11.09

현재글(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 4

데이터리드가 될 예정입니다.

데이터를 무기로 비즈니스 가치를 창출하는 데이터 리드가 되고자 노력 중입니다 :) 스스로를 Full-stack Data Expert로 소개할 날을 꿈꿉니다.

책리뷰, attribution model, 인과추론, Spark, java, 대격변ai시대데이터로사고하고데이터로리드하라, data analysis, 데이터, 개발공부, nlp, 데이터분석, cqgr, 2025새해다짐, GPT, 스터디, dakerton, 일상, 데커톤, 자연어처리, JAVA쪼렙탈출기,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터리드가 될 예정입니다.