데이터분석 12

대격변 AI시대, 데이터로 사고하고 데이터로 리드하라

책 제목: 대격변 AI 시대, 데이터로 사고하고 데이터로 리드하라저자: 알렉스 거트맨, 조던 골드마이어기록해두고 싶은 문장1장 무엇이 문제일까데이터는 복잡하다. 데이터에 관한 문제는 대부분 근본적으로 어렵다. 설사 가장 명석한 분석가가 방대한 데이터를 확보해서 적절한 도구와 분석 기법으로 작업하더라도 실수를 피하기 어렵다.3장 통계적 사고를 위한 준비를 갖추자오늘날 데이터 과학의 혜택은 실재하며 그 어느 때보다도 중요하다. 예측이 점점 정확해짐에 따라 데이터 과학 결과물의 가치는 더욱 높아질 것이며 이 분야에 대한 관심도 커질 것이다. 하지만 간혹 이런 발전은 우리를 안주하게 하고 결함을 감춰버리기도 한다. 확률적 추론과 증거에 대한 평가를 더 깊이 이해하는 것은 데이터 리드가 갖춰야 할 기본 소양이다...

책리뷰 2025.03.30

[Dakerton] 어떤 광고가 효과적일까? 데이터로 풀어보는 Attribution Model

우리 팀은 2025년부터 일주일에 한 번씩 모여 데커톤(Dakerton)을 진행하고 있다. '데커톤'은 데이터(Data)와 해커톤(Hackathon)을 조합해서 만든 우리 팀만의 문화로, 한 명씩 돌아가며 [분석하고 싶은 주제]를 제안하고, 그 주제에 대해 1~2시간동안 각자의 방법으로 데이터를 분석하고 공유하며 2, 3주에 걸쳐 결론을 내는 것이다. "우리 프로덕트에 도움이 되는 주제여야 한다"는 단 하나의 룰만 지키면, 참석 여부도 분석 방법론도 모든 게 자유이다.  데커톤의 두 번째 주제는 종만님께서 제안주셨는데, 광고 및 마케팅 성과 측정 시 자주 사용되는 'Attribution Model'의 개념을 적용하여, 회사의 여러 캠페인 광고 데이터를 분석하는 것이었다. 종만님은 광고 분야에 대한 이해도..

데이터 2025.03.02

[Dakerton] 데이터에서 숨은 패턴을 찾다: Apriori 알고리즘을 활용한 연관분석

우리 팀은 2025년부터 일주일에 한 번씩 모여 데커톤(Dakerton)을 진행하고 있다. '데커톤'은 데이터(Data)와 해커톤(Hackathon)을 조합해서 만든 우리 팀만의 문화로, 한 명씩 돌아가며 [분석하고 싶은 주제]를 제안하고, 그 주제에 대해 1~2시간동안 각자의 방법으로 데이터를 분석하고 공유하며 2, 3주에 걸쳐 결론을 내는 것이다. "우리 프로덕트에 도움이 되는 주제여야 한다"는 단 하나의 룰만 지키면, 참석 여부도 분석 방법론도 모든 게 자유이다.   데커톤의 첫 주제는 가장 최근에 입사하신 혜인님께서 낸 아이디어로부터 시작되었다. 혜인: 저 분석하고 싶은 거 있어요. 우리 서비스에서 여러 상품을 같이 사는 고객들이 얼마나 되는지랑 그 때의 상품 조합이 어떤지 궁금해요.유진: 어라?..

데이터 2025.02.02

CQGR로 우리 서비스의 성장률 측정하기

데이터를 다루는 사람이라면 "고객이 우리 서비스에 만족하고 있다"는 추상적인 문장을 정량적이고 수치적으로 표현할 수 있어야 한다. 그러나 서비스 맞춤형 지표를 설계하는 일은 결코 쉬운 일이 아니다. 오늘은 같은 팀의 동료 데이터분석가가 본인 스쿼드에서 설계한 지표를 소개하고자 한다. *참고: 우리 회사에서는 데이터분석가가 각 스쿼드ㅡ프로젝트 단위 조직ㅡ에 전담으로 배정되어, 해당 스쿼드의 목표 달성을 위해 데이터를 분석하고 지표를 설계한다. 그렇게 본인 스쿼드에 집중하다가, 매주 한 번씩 분석가들끼리 모여 분석한 내용을 공유하는 시간을 가진다. 오늘 내가 소개하고자 하는 지표도 매주 한 번씩 진행되는 위클리 시간에 알게됐다 :) CAGR → CQGRCAGR은 경제나 주식에 관심이 많은 사람들이라면 기사에..

데이터 2025.01.26

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 5

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 4에서 이어집니다. PART 5. 대안적 실험 설계10장 지역 실험과 스위치백 실험지역 실험 & 스위치백 실험: 실험 대상의 수가 적을 때 대안적 실험 설계 방법 통제집단합성법목표: 전체 실험 대상의 평균 행동을 근사하는 소규모 실험 대상 집단을 찾는 것장점: 실험 대상의 수가 상대적으로 적을 때 매우 유용하다.평균을 잘 재현하는 실험 대상에 처치할 수 있다.이월 효과의 차수가 커서 처치효과가 사라지는 데 오랜 시간이 걸리는 경우에 적합하다. → 이월 효과의 차수가 작을 때는? 스위치백 실험 f: 각 실험 대상이 전체 평균에 기여하는 가중치w: 가상의 실험군에 대한 가중치v: ..

데이터 2024.12.28

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 4

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 3에서 이어집니다. PART 4. 패널데이터8장 이중차분법패널데이터- 시간에 따라 반복해서 관측되는 데이터 구조 → 랜덤화가 불가능할 때 인과효과를 식별할 수 있는 대안- 여러 기간에 걸쳐 동일 실험 대상을 관측함으로써, 대상 및 시간에 걸쳐 상관관계를 활용하여 누락된 잠재적 결과 Y(1)을 추정할 수 있다. 여러 시간대 t에 걸친 여러 실험 대상 i시간 벡터 t = { 1, 2, ... , Tpre, Tpre+1, ..., T }개입(처치)은 개입 후 기간(t > Tpre)의 실험군(D = 1)에만 발생처치변수 및 개입 후에 대한 조합 W = D * 1(t > Tpre)   ..

데이터 2024.12.04

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 3

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 2에서 이어집니다. PART 3. 이질적 효과와 개인화6장 이질적 처치효과실험 대상 i마다 처치 효과 Γi가 다를 수 있다. 어떤 대상이 처치에 더 잘 반응하는지 아는 것은 처치 대상을 결정하는 데 중요한 역할을 한다.ex) 할인에 더 민감한 고객이라면 할인 쿠폰을 주면 유익하지만, 그렇지 않다면 쿠폰의 효과가 없을 수 있다.  평균 처치효과 ATE이산형일 때연속형일 때조건부 평균 처치효과 CATE: X에 대한 조건부는 각 실험 대상이 공변량 X로 정의된 특성에 따라 처치효과가 다를 수 있음을 의미한다. 머신러닝의 목적: 결과(Y) 예측 CATE의 목적: 결과에 미치는 처치(..

데이터 2024.11.22

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 2

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 1에서 이어집니다. PART 2. 편향 보정4장 유용한 선형회귀회귀분석: 인과추론의 핵심이자 가장 많이 사용되는 방법으로 응용 방법론의 주요 구성 요소이기도 하다.*선형회귀분석은 평균제곱오차(MSE, Mean Squared Error)를 최소화하는 매개변수를 찾는다.보정 공식을 적용하려면? 데이터를 특성 X에 따라 여러 그룹으로 나눠야 한다.데이터가 특성이 많고 일부가 이산형이 아닌 연속형이라면? → 차원의 저주 발생 차원이 늘어날수록 데이터 포인트 간의 거리 계산, 데이터의 밀도, 그리고 모델의 학습 및 일반화가 어려워 지는 현상1. 데이터 희소성: 고차원 공간에서는 데이터 ..

데이터 2024.11.09

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 1

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다. PART 1. 인과추론 기초1장 인과추론 소개연관관계(association)는 인과관계(causation)가 아니다. 하지만 연관관계는 때로 인과관계가 될 수도 있다.연관관계: 두 개의 수치나 확률변수가 같이 움직이는 것인과관계: 한 변수의 변화가 다른 변수의 변화를 일으키는 것인과추론: 연관관계로부터 인과관계를 추론하고 언제, 그리고 왜 서로 다른지 이해하는 과학적 방법론원인과 결과의 관계를 알아야만 원인에 개입하여 원하는 결과를 가져올 수 있다.u: 모델 외부의 변수 (모델링하지 않을 변수)T: 처치변수←: 등호 대신 화살표를 사용하여 인과관계의 비가역성(nonreversibility)을 표시Y ← f(T, u): 처치변수 T는 다른..

데이터 2024.10.20

AB테스트는 이유 있는 제품을 만든다.

아직 2개월 반이 남긴 했지만, 올해는 저에게 정말 다사다난한 한 해였습니다. 다양한 스쿼드에서 전담 데이터분석가로 일했고, 여러 직무의 동료들과 협업했으며, 분석 업무 외에도 경험해보지 못했던 많은 업무들을 맡았어요. 그러다가 3분기에 들어서서는 아예 1개의 스쿼드만 맡도록 바뀌었어요. 고객이 좋아할만한 템플릿을 추천해주는 추천스쿼드 담당 DA가 된거죠. 스쿼드 내에는 추천모델을 개발하는 개발자님들이 계셨고, 그분들이 개발하신 추천모델이 고객이 실제로 좋아하는지 체크할 필요가 있었습니다. 그러기 위해서 스쿼드에서 선택한 방법은 'AB테스트'였습니다. 데이터직군이라면(데이터직군 외에도) 누구나 AB테스트에 관심이 많을 거라 생각해요. 그래서 저는 오늘 저희 팀이 진행해 온, 또 앞으로도 진행할 'AB테..

데이터 2024.10.03