분류 전체보기 48

[Dakerton] 데이터에서 숨은 패턴을 찾다: Apriori 알고리즘을 활용한 연관분석

우리 팀은 2025년부터 일주일에 한 번씩 모여 데커톤(Dakerton)을 진행하고 있다. '데커톤'은 데이터(Data)와 해커톤(Hackathon)을 조합해서 만든 우리 팀만의 문화로, 한 명씩 돌아가며 [분석하고 싶은 주제]를 제안하고, 그 주제에 대해 1~2시간동안 각자의 방법으로 데이터를 분석하고 공유하며 2, 3주에 걸쳐 결론을 내는 것이다. "우리 프로덕트에 도움이 되는 주제여야 한다"는 단 하나의 룰만 지키면, 참석 여부도 분석 방법론도 모든 게 자유이다.   데커톤의 첫 주제는 가장 최근에 입사하신 혜인님께서 낸 아이디어로부터 시작되었다. 혜인: 저 분석하고 싶은 거 있어요. 우리 서비스에서 여러 상품을 같이 사는 고객들이 얼마나 되는지랑 그 때의 상품 조합이 어떤지 궁금해요.유진: 어라?..

데이터 2025.02.02

CQGR로 우리 서비스의 성장률 측정하기

데이터를 다루는 사람이라면 "고객이 우리 서비스에 만족하고 있다"는 추상적인 문장을 정량적이고 수치적으로 표현할 수 있어야 한다. 그러나 서비스 맞춤형 지표를 설계하는 일은 결코 쉬운 일이 아니다. 오늘은 같은 팀의 동료 데이터분석가가 본인 스쿼드에서 설계한 지표를 소개하고자 한다. *참고: 우리 회사에서는 데이터분석가가 각 스쿼드ㅡ프로젝트 단위 조직ㅡ에 전담으로 배정되어, 해당 스쿼드의 목표 달성을 위해 데이터를 분석하고 지표를 설계한다. 그렇게 본인 스쿼드에 집중하다가, 매주 한 번씩 분석가들끼리 모여 분석한 내용을 공유하는 시간을 가진다. 오늘 내가 소개하고자 하는 지표도 매주 한 번씩 진행되는 위클리 시간에 알게됐다 :) CAGR → CQGRCAGR은 경제나 주식에 관심이 많은 사람들이라면 기사에..

데이터 2025.01.26

Databricks에서 원하는 조건의 순서에 맞게 배열 정렬하기

부제: 데이터 분석가는 그의 업무시간 중 70%를 데이터 전처리에 쓴다.  챗GPT와 논쟁 → 구글링 → 각종 도큐멘트 정독 등등의 과정을 거치며 알아낸 정보를 기록해둔다. 나중에 같은 문제를 맞닥뜨린 누군가가 해당 글을 통해 더 빠르게 문제를 해결할 수 있기를...🙏  내가 마주한 문제우리 서비스의 고객 행동을 분석하고, 관련 지표를 설계하던 중 로우데이터의 일부를 하나의 배열 안에 넣을 필요가 있었다. 근데 배열 안에 데이터를 넣을 때 event_time 순서대로 넣어야 했다. 예를 들면, 이러한 로우데이터를 가공을 통해 아래와 같은 데이터를 만들어내야 했다.   흠, 쉽네.ARRAY_AGG()로 film을 묶은 다음에 event_time 기준으로 ORDER BY 하면 되겠군.   PostgreS..

데이터 2025.01.12

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 5

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 4에서 이어집니다. PART 5. 대안적 실험 설계10장 지역 실험과 스위치백 실험지역 실험 & 스위치백 실험: 실험 대상의 수가 적을 때 대안적 실험 설계 방법 통제집단합성법목표: 전체 실험 대상의 평균 행동을 근사하는 소규모 실험 대상 집단을 찾는 것장점: 실험 대상의 수가 상대적으로 적을 때 매우 유용하다.평균을 잘 재현하는 실험 대상에 처치할 수 있다.이월 효과의 차수가 커서 처치효과가 사라지는 데 오랜 시간이 걸리는 경우에 적합하다. → 이월 효과의 차수가 작을 때는? 스위치백 실험 f: 각 실험 대상이 전체 평균에 기여하는 가중치w: 가상의 실험군에 대한 가중치v: ..

데이터 2024.12.28

Looking back 2024, Looking forward to 2025

0. Looking back 2024시간이 빠르게 흘러 2024년도 어느덧 한 손으로 셀 수 있는 날들만 남았다. 2023년과 비슷한 나날들이 이어질 것이라 예상했던 것과는 달리, 생각보다 많은 것이 변하고 다양한 일들을 경험하며 여러 감정을 느낀 2024년이었다. 내가 좋아하는 것과 좋아하지 않는 것을 가리지 않고 열심히 했고, 그래서 굉장히 바빴고, 하지만 그게 싫지 않았다. 연초에는 여러 가지의 불운이 몰려온다고 생각했는데, 지금 와서 가짓수를 세어보니 '행운'의 수가 더 많았다. 연초의 '불운'들 또한 나를 성장시키는 원동력이 되었다. 1. '나'에서 '우리'로 올해 회사에서는 내게 두 가지 새로운 역할을 맡겼다. 하나는 스쿼드의 데이터를 집중적으로 분석하는 '전담 DA'였고, 다른 하나는 데이터..

일상&잡담 2024.12.25

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 4

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 3에서 이어집니다. PART 4. 패널데이터8장 이중차분법패널데이터- 시간에 따라 반복해서 관측되는 데이터 구조 → 랜덤화가 불가능할 때 인과효과를 식별할 수 있는 대안- 여러 기간에 걸쳐 동일 실험 대상을 관측함으로써, 대상 및 시간에 걸쳐 상관관계를 활용하여 누락된 잠재적 결과 Y(1)을 추정할 수 있다. 여러 시간대 t에 걸친 여러 실험 대상 i시간 벡터 t = { 1, 2, ... , Tpre, Tpre+1, ..., T }개입(처치)은 개입 후 기간(t > Tpre)의 실험군(D = 1)에만 발생처치변수 및 개입 후에 대한 조합 W = D * 1(t > Tpre)   ..

데이터 2024.12.04

(Dataquest) Spark를 활용한 대규모 데이터셋 분석

Dataquest: Spark 강의 의 내용을 공부한 후 정리한 글입니다. Spark 등장 배경데이터 수집 추세가 증가함에 따라 기존 기술로는 대량의 데이터를 분석할 수 없었기 때문에 작업을 수행할 수 있는 새로운 도구와 접근 방식을 구축해야 했다.엔지니어들은 처음에 더 크고 강력한 컴퓨터를 사용하여 데이터를 처리하려고 시도했지만 여전히 많은 계산 문제로 인해 한계에 부딪혔다. 그 과정에서 그들은 결과를 계산하기 위해 수백 또는 수천 대의 컴퓨터에 계산을 효율적으로 분배하는 MapReduce와 같은 패러다임을 개발했다. 즉, Hadoop은 빠르게 빅 데이터를 위한 지배적인 처리 도구 키트가 된 오픈 소스 프로젝트이다.더보기MapReduce분산 서버를 마샬링(메모리 상에 형상화된 객체 데이터를 적당한 다른..

데이터 2024.11.24

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 3

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 2에서 이어집니다. PART 3. 이질적 효과와 개인화6장 이질적 처치효과실험 대상 i마다 처치 효과 Γi가 다를 수 있다. 어떤 대상이 처치에 더 잘 반응하는지 아는 것은 처치 대상을 결정하는 데 중요한 역할을 한다.ex) 할인에 더 민감한 고객이라면 할인 쿠폰을 주면 유익하지만, 그렇지 않다면 쿠폰의 효과가 없을 수 있다.  평균 처치효과 ATE이산형일 때연속형일 때조건부 평균 처치효과 CATE: X에 대한 조건부는 각 실험 대상이 공변량 X로 정의된 특성에 따라 처치효과가 다를 수 있음을 의미한다. 머신러닝의 목적: 결과(Y) 예측 CATE의 목적: 결과에 미치는 처치(..

데이터 2024.11.22

3달 간의 SQL스터디를 마무리하며... (부제: 모더레이터로써의 스터디 후기)

회사 동료들과 2024년 9월 24일 첫 회차를 시작으로, 2024년 11월 12일 마지막 회차까지 마무리하며 약 3달 간의 스터디가 끝났다.워낙 몰랐던 지식을 습득하고 배우는 것을 좋아해서 스터디는 이것저것 다양하게 해왔었는데, 모더레이터(Moderator)로써 내가 스터디를 진행하고 이끌어나가는 경험은 처음이었던지라 많이 떨리면서도 책임감도 크게 느껴지는, 새로운 경험이었다. 이 새로움이 잊혀지기 전에 글로써 남겨보고자 한다.  0. 처음 시작은 서동요였다."유진님. 회사에서 SQL스터디 하신다면서요!""아 진짜요? SQL도 따로 스터디하시는구나. 누가 하신대요?""어, 유진님이 가르쳐주신다는데요?""? ...제가요?" 친한 디렉터 동료와 우연히 엘레베이터에서 만나 반갑게 인사를 나눴는데 들은 말이었..

일상&잡담 2024.11.16

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 2

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 1에서 이어집니다. PART 2. 편향 보정4장 유용한 선형회귀회귀분석: 인과추론의 핵심이자 가장 많이 사용되는 방법으로 응용 방법론의 주요 구성 요소이기도 하다.*선형회귀분석은 평균제곱오차(MSE, Mean Squared Error)를 최소화하는 매개변수를 찾는다.보정 공식을 적용하려면? 데이터를 특성 X에 따라 여러 그룹으로 나눠야 한다.데이터가 특성이 많고 일부가 이산형이 아닌 연속형이라면? → 차원의 저주 발생 차원이 늘어날수록 데이터 포인트 간의 거리 계산, 데이터의 밀도, 그리고 모델의 학습 및 일반화가 어려워 지는 현상1. 데이터 희소성: 고차원 공간에서는 데이터 ..

데이터 2024.11.09