전체 글 50

대격변 AI시대, 데이터로 사고하고 데이터로 리드하라

책 제목: 대격변 AI 시대, 데이터로 사고하고 데이터로 리드하라저자: 알렉스 거트맨, 조던 골드마이어기록해두고 싶은 문장1장 무엇이 문제일까데이터는 복잡하다. 데이터에 관한 문제는 대부분 근본적으로 어렵다. 설사 가장 명석한 분석가가 방대한 데이터를 확보해서 적절한 도구와 분석 기법으로 작업하더라도 실수를 피하기 어렵다.3장 통계적 사고를 위한 준비를 갖추자오늘날 데이터 과학의 혜택은 실재하며 그 어느 때보다도 중요하다. 예측이 점점 정확해짐에 따라 데이터 과학 결과물의 가치는 더욱 높아질 것이며 이 분야에 대한 관심도 커질 것이다. 하지만 간혹 이런 발전은 우리를 안주하게 하고 결함을 감춰버리기도 한다. 확률적 추론과 증거에 대한 평가를 더 깊이 이해하는 것은 데이터 리드가 갖춰야 할 기본 소양이다...

책리뷰 2025.03.30

[Dakerton] 어떤 광고가 효과적일까? 데이터로 풀어보는 Attribution Model

우리 팀은 2025년부터 일주일에 한 번씩 모여 데커톤(Dakerton)을 진행하고 있다. '데커톤'은 데이터(Data)와 해커톤(Hackathon)을 조합해서 만든 우리 팀만의 문화로, 한 명씩 돌아가며 [분석하고 싶은 주제]를 제안하고, 그 주제에 대해 1~2시간동안 각자의 방법으로 데이터를 분석하고 공유하며 2, 3주에 걸쳐 결론을 내는 것이다. "우리 프로덕트에 도움이 되는 주제여야 한다"는 단 하나의 룰만 지키면, 참석 여부도 분석 방법론도 모든 게 자유이다.  데커톤의 두 번째 주제는 종만님께서 제안주셨는데, 광고 및 마케팅 성과 측정 시 자주 사용되는 'Attribution Model'의 개념을 적용하여, 회사의 여러 캠페인 광고 데이터를 분석하는 것이었다. 종만님은 광고 분야에 대한 이해도..

데이터 2025.03.02

[Dakerton] 데이터에서 숨은 패턴을 찾다: Apriori 알고리즘을 활용한 연관분석

우리 팀은 2025년부터 일주일에 한 번씩 모여 데커톤(Dakerton)을 진행하고 있다. '데커톤'은 데이터(Data)와 해커톤(Hackathon)을 조합해서 만든 우리 팀만의 문화로, 한 명씩 돌아가며 [분석하고 싶은 주제]를 제안하고, 그 주제에 대해 1~2시간동안 각자의 방법으로 데이터를 분석하고 공유하며 2, 3주에 걸쳐 결론을 내는 것이다. "우리 프로덕트에 도움이 되는 주제여야 한다"는 단 하나의 룰만 지키면, 참석 여부도 분석 방법론도 모든 게 자유이다.   데커톤의 첫 주제는 가장 최근에 입사하신 혜인님께서 낸 아이디어로부터 시작되었다. 혜인: 저 분석하고 싶은 거 있어요. 우리 서비스에서 여러 상품을 같이 사는 고객들이 얼마나 되는지랑 그 때의 상품 조합이 어떤지 궁금해요.유진: 어라?..

데이터 2025.02.02

CQGR로 우리 서비스의 성장률 측정하기

데이터를 다루는 사람이라면 "고객이 우리 서비스에 만족하고 있다"는 추상적인 문장을 정량적이고 수치적으로 표현할 수 있어야 한다. 그러나 서비스 맞춤형 지표를 설계하는 일은 결코 쉬운 일이 아니다. 오늘은 같은 팀의 동료 데이터분석가가 본인 스쿼드에서 설계한 지표를 소개하고자 한다. *참고: 우리 회사에서는 데이터분석가가 각 스쿼드ㅡ프로젝트 단위 조직ㅡ에 전담으로 배정되어, 해당 스쿼드의 목표 달성을 위해 데이터를 분석하고 지표를 설계한다. 그렇게 본인 스쿼드에 집중하다가, 매주 한 번씩 분석가들끼리 모여 분석한 내용을 공유하는 시간을 가진다. 오늘 내가 소개하고자 하는 지표도 매주 한 번씩 진행되는 위클리 시간에 알게됐다 :) CAGR → CQGRCAGR은 경제나 주식에 관심이 많은 사람들이라면 기사에..

데이터 2025.01.26

Databricks에서 원하는 조건의 순서에 맞게 배열 정렬하기

부제: 데이터 분석가는 그의 업무시간 중 70%를 데이터 전처리에 쓴다.  챗GPT와 논쟁 → 구글링 → 각종 도큐멘트 정독 등등의 과정을 거치며 알아낸 정보를 기록해둔다. 나중에 같은 문제를 맞닥뜨린 누군가가 해당 글을 통해 더 빠르게 문제를 해결할 수 있기를...🙏  내가 마주한 문제우리 서비스의 고객 행동을 분석하고, 관련 지표를 설계하던 중 로우데이터의 일부를 하나의 배열 안에 넣을 필요가 있었다. 근데 배열 안에 데이터를 넣을 때 event_time 순서대로 넣어야 했다. 예를 들면, 이러한 로우데이터를 가공을 통해 아래와 같은 데이터를 만들어내야 했다.   흠, 쉽네.ARRAY_AGG()로 film을 묶은 다음에 event_time 기준으로 ORDER BY 하면 되겠군.   PostgreS..

데이터 2025.01.12

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 5

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 4에서 이어집니다. PART 5. 대안적 실험 설계10장 지역 실험과 스위치백 실험지역 실험 & 스위치백 실험: 실험 대상의 수가 적을 때 대안적 실험 설계 방법 통제집단합성법목표: 전체 실험 대상의 평균 행동을 근사하는 소규모 실험 대상 집단을 찾는 것장점: 실험 대상의 수가 상대적으로 적을 때 매우 유용하다.평균을 잘 재현하는 실험 대상에 처치할 수 있다.이월 효과의 차수가 커서 처치효과가 사라지는 데 오랜 시간이 걸리는 경우에 적합하다. → 이월 효과의 차수가 작을 때는? 스위치백 실험 f: 각 실험 대상이 전체 평균에 기여하는 가중치w: 가상의 실험군에 대한 가중치v: ..

데이터 2024.12.28

Looking back 2024, Looking forward to 2025

0. Looking back 2024시간이 빠르게 흘러 2024년도 어느덧 한 손으로 셀 수 있는 날들만 남았다. 2023년과 비슷한 나날들이 이어질 것이라 예상했던 것과는 달리, 생각보다 많은 것이 변하고 다양한 일들을 경험하며 여러 감정을 느낀 2024년이었다. 내가 좋아하는 것과 좋아하지 않는 것을 가리지 않고 열심히 했고, 그래서 굉장히 바빴고, 하지만 그게 싫지 않았다. 연초에는 여러 가지의 불운이 몰려온다고 생각했는데, 지금 와서 가짓수를 세어보니 '행운'의 수가 더 많았다. 연초의 '불운'들 또한 나를 성장시키는 원동력이 되었다. 1. '나'에서 '우리'로 올해 회사에서는 내게 두 가지 새로운 역할을 맡겼다. 하나는 스쿼드의 데이터를 집중적으로 분석하는 '전담 DA'였고, 다른 하나는 데이터..

일상&잡담 2024.12.25

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 4

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 3에서 이어집니다. PART 4. 패널데이터8장 이중차분법패널데이터- 시간에 따라 반복해서 관측되는 데이터 구조 → 랜덤화가 불가능할 때 인과효과를 식별할 수 있는 대안- 여러 기간에 걸쳐 동일 실험 대상을 관측함으로써, 대상 및 시간에 걸쳐 상관관계를 활용하여 누락된 잠재적 결과 Y(1)을 추정할 수 있다. 여러 시간대 t에 걸친 여러 실험 대상 i시간 벡터 t = { 1, 2, ... , Tpre, Tpre+1, ..., T }개입(처치)은 개입 후 기간(t > Tpre)의 실험군(D = 1)에만 발생처치변수 및 개입 후에 대한 조합 W = D * 1(t > Tpre)   ..

데이터 2024.12.04

(Dataquest) Spark를 활용한 대규모 데이터셋 분석

Dataquest: Spark 강의 의 내용을 공부한 후 정리한 글입니다. Spark 등장 배경데이터 수집 추세가 증가함에 따라 기존 기술로는 대량의 데이터를 분석할 수 없었기 때문에 작업을 수행할 수 있는 새로운 도구와 접근 방식을 구축해야 했다.엔지니어들은 처음에 더 크고 강력한 컴퓨터를 사용하여 데이터를 처리하려고 시도했지만 여전히 많은 계산 문제로 인해 한계에 부딪혔다. 그 과정에서 그들은 결과를 계산하기 위해 수백 또는 수천 대의 컴퓨터에 계산을 효율적으로 분배하는 MapReduce와 같은 패러다임을 개발했다. 즉, Hadoop은 빠르게 빅 데이터를 위한 지배적인 처리 도구 키트가 된 오픈 소스 프로젝트이다.더보기MapReduce분산 서버를 마샬링(메모리 상에 형상화된 객체 데이터를 적당한 다른..

데이터 2024.11.24

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 3

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 2에서 이어집니다. PART 3. 이질적 효과와 개인화6장 이질적 처치효과실험 대상 i마다 처치 효과 Γi가 다를 수 있다. 어떤 대상이 처치에 더 잘 반응하는지 아는 것은 처치 대상을 결정하는 데 중요한 역할을 한다.ex) 할인에 더 민감한 고객이라면 할인 쿠폰을 주면 유익하지만, 그렇지 않다면 쿠폰의 효과가 없을 수 있다.  평균 처치효과 ATE이산형일 때연속형일 때조건부 평균 처치효과 CATE: X에 대한 조건부는 각 실험 대상이 공변량 X로 정의된 특성에 따라 처치효과가 다를 수 있음을 의미한다. 머신러닝의 목적: 결과(Y) 예측 CATE의 목적: 결과에 미치는 처치(..

데이터 2024.11.22