데이터리드가 될 예정입니다.

전체 글 52

리소스를 적게 쓰는 방향이 아닌, 옳게 쓰는 방향으로 일한다는 것

사이클의 특정 단계에서만 참여하는 것이 아니라, 시작부터 마지막까지 함께하여 의견을 내고 발전시켜 나가는 것. 그것이 내가 생각하는 ‘좋은 데이터 분석가’이고, 내가 되고 싶은 최종TO-BE이다. 하지만 이러한 모습을 꿈꾸며 일하다가도 절대적인 업무량 자체가 많아지다보면 사이클에 참여하는 것 자체가 부담이 될 때가 있다. ‘이 회의에 들어갔다가 내일까지 끝내기로 한 일을 못할 것 같은데?’, ‘논의할 시간에 차라리 일하는 게 더 나을까?’ 등의 생각이 들게 된다. 문제는 이런 생각이 드는게 나뿐만이 아니라는 점이다. 내가 바빠보이면 그 순간부터 타 부서 동료들도 나에게 의견을 묻거나 업무를 주기에 망설여진다. 그러면 이때부터 나를 대하는(업무를 주는) 방식이 달라진다. 목적에 대한 Why를 함께 의견 ..

일상&잡담 2025.06.07

일본 미야코지마 3박4일 여행 기록글

2025.04.16 ~ 2025.04.19 3박4일간 일본 미야코지마 여행을 다녀왔다. 혼자만의 여행은 아니었고, 엄마와 동생 셋이서 모녀여행을 다녀왔었다.회사를 3년 근속한 결과로 한달 간의 휴식기(사내에서는 이것을 '리프레시 휴가 제도'라고 부른다.)가 주어졌다. 무엇을 하고 싶어 리프레시를 신청했냐고 묻는다면··· 아무 것도 하고 싶지 않아 신청했다. 나는 지쳐있었고, 그 어떤 것도 할 자신이 없었고, 그렇기에 한 번 stop 해야겠다 느꼈다. 본래 집에만 있을 생각이었는데, 30년 인생을 돌아봤을 때 집에만 은둔하여 있을 때 더욱 걱정과 우울에 빠져드는 타입이라 새로운 곳으로 떠나야겠다고 마음먹었다. 인적이 드문 조용한 바닷가에서 가만히 앉아 마음을 돌아보고 싶기도 했다.비행기에서 내려다 본 미야..

일상&잡담 2025.04.20

대격변 AI시대, 데이터로 사고하고 데이터로 리드하라

책 제목: 대격변 AI 시대, 데이터로 사고하고 데이터로 리드하라저자: 알렉스 거트맨, 조던 골드마이어기록해두고 싶은 문장1장 무엇이 문제일까데이터는 복잡하다. 데이터에 관한 문제는 대부분 근본적으로 어렵다. 설사 가장 명석한 분석가가 방대한 데이터를 확보해서 적절한 도구와 분석 기법으로 작업하더라도 실수를 피하기 어렵다.3장 통계적 사고를 위한 준비를 갖추자오늘날 데이터 과학의 혜택은 실재하며 그 어느 때보다도 중요하다. 예측이 점점 정확해짐에 따라 데이터 과학 결과물의 가치는 더욱 높아질 것이며 이 분야에 대한 관심도 커질 것이다. 하지만 간혹 이런 발전은 우리를 안주하게 하고 결함을 감춰버리기도 한다. 확률적 추론과 증거에 대한 평가를 더 깊이 이해하는 것은 데이터 리드가 갖춰야 할 기본 소양이다...

책리뷰 2025.03.30

[Dakerton] 어떤 광고가 효과적일까? 데이터로 풀어보는 Attribution Model

우리 팀은 2025년부터 일주일에 한 번씩 모여 데커톤(Dakerton)을 진행하고 있다. '데커톤'은 데이터(Data)와 해커톤(Hackathon)을 조합해서 만든 우리 팀만의 문화로, 한 명씩 돌아가며 [분석하고 싶은 주제]를 제안하고, 그 주제에 대해 1~2시간동안 각자의 방법으로 데이터를 분석하고 공유하며 2, 3주에 걸쳐 결론을 내는 것이다. "우리 프로덕트에 도움이 되는 주제여야 한다"는 단 하나의 룰만 지키면, 참석 여부도 분석 방법론도 모든 게 자유이다. 데커톤의 두 번째 주제는 종만님께서 제안주셨는데, 광고 및 마케팅 성과 측정 시 자주 사용되는 'Attribution Model'의 개념을 적용하여, 회사의 여러 캠페인 광고 데이터를 분석하는 것이었다. 종만님은 광고 분야에 대한 이해도..

데이터 2025.03.02

[Dakerton] 데이터에서 숨은 패턴을 찾다: Apriori 알고리즘을 활용한 연관분석

우리 팀은 2025년부터 일주일에 한 번씩 모여 데커톤(Dakerton)을 진행하고 있다. '데커톤'은 데이터(Data)와 해커톤(Hackathon)을 조합해서 만든 우리 팀만의 문화로, 한 명씩 돌아가며 [분석하고 싶은 주제]를 제안하고, 그 주제에 대해 1~2시간동안 각자의 방법으로 데이터를 분석하고 공유하며 2, 3주에 걸쳐 결론을 내는 것이다. "우리 프로덕트에 도움이 되는 주제여야 한다"는 단 하나의 룰만 지키면, 참석 여부도 분석 방법론도 모든 게 자유이다. 데커톤의 첫 주제는 가장 최근에 입사하신 혜인님께서 낸 아이디어로부터 시작되었다. 혜인: 저 분석하고 싶은 거 있어요. 우리 서비스에서 여러 상품을 같이 사는 고객들이 얼마나 되는지랑 그 때의 상품 조합이 어떤지 궁금해요.유진: 어라?..

데이터 2025.02.02

CQGR로 우리 서비스의 성장률 측정하기

데이터를 다루는 사람이라면 "고객이 우리 서비스에 만족하고 있다"는 추상적인 문장을 정량적이고 수치적으로 표현할 수 있어야 한다. 그러나 서비스 맞춤형 지표를 설계하는 일은 결코 쉬운 일이 아니다. 오늘은 같은 팀의 동료 데이터분석가가 본인 스쿼드에서 설계한 지표를 소개하고자 한다. *참고: 우리 회사에서는 데이터분석가가 각 스쿼드ㅡ프로젝트 단위 조직ㅡ에 전담으로 배정되어, 해당 스쿼드의 목표 달성을 위해 데이터를 분석하고 지표를 설계한다. 그렇게 본인 스쿼드에 집중하다가, 매주 한 번씩 분석가들끼리 모여 분석한 내용을 공유하는 시간을 가진다. 오늘 내가 소개하고자 하는 지표도 매주 한 번씩 진행되는 위클리 시간에 알게됐다 :) CAGR → CQGRCAGR은 경제나 주식에 관심이 많은 사람들이라면 기사에..

데이터 2025.01.26

Databricks에서 원하는 조건의 순서에 맞게 배열 정렬하기

부제: 데이터 분석가는 그의 업무시간 중 70%를 데이터 전처리에 쓴다. 챗GPT와 논쟁 → 구글링 → 각종 도큐멘트 정독 등등의 과정을 거치며 알아낸 정보를 기록해둔다. 나중에 같은 문제를 맞닥뜨린 누군가가 해당 글을 통해 더 빠르게 문제를 해결할 수 있기를...🙏 내가 마주한 문제우리 서비스의 고객 행동을 분석하고, 관련 지표를 설계하던 중 로우데이터의 일부를 하나의 배열 안에 넣을 필요가 있었다. 근데 배열 안에 데이터를 넣을 때 event_time 순서대로 넣어야 했다. 예를 들면, 이러한 로우데이터를 가공을 통해 아래와 같은 데이터를 만들어내야 했다. 흠, 쉽네.ARRAY_AGG()로 film을 묶은 다음에 event_time 기준으로 ORDER BY 하면 되겠군. PostgreS..

데이터 2025.01.12

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 5

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 4에서 이어집니다. PART 5. 대안적 실험 설계10장 지역 실험과 스위치백 실험지역 실험 & 스위치백 실험: 실험 대상의 수가 적을 때 대안적 실험 설계 방법 통제집단합성법목표: 전체 실험 대상의 평균 행동을 근사하는 소규모 실험 대상 집단을 찾는 것장점: 실험 대상의 수가 상대적으로 적을 때 매우 유용하다.평균을 잘 재현하는 실험 대상에 처치할 수 있다.이월 효과의 차수가 커서 처치효과가 사라지는 데 오랜 시간이 걸리는 경우에 적합하다. → 이월 효과의 차수가 작을 때는? 스위치백 실험 f: 각 실험 대상이 전체 평균에 기여하는 가중치w: 가상의 실험군에 대한 가중치v: ..

데이터 2024.12.28

Looking back 2024, Looking forward to 2025

0. Looking back 2024시간이 빠르게 흘러 2024년도 어느덧 한 손으로 셀 수 있는 날들만 남았다. 2023년과 비슷한 나날들이 이어질 것이라 예상했던 것과는 달리, 생각보다 많은 것이 변하고 다양한 일들을 경험하며 여러 감정을 느낀 2024년이었다. 내가 좋아하는 것과 좋아하지 않는 것을 가리지 않고 열심히 했고, 그래서 굉장히 바빴고, 하지만 그게 싫지 않았다. 연초에는 여러 가지의 불운이 몰려온다고 생각했는데, 지금 와서 가짓수를 세어보니 '행운'의 수가 더 많았다. 연초의 '불운'들 또한 나를 성장시키는 원동력이 되었다. 1. '나'에서 '우리'로 올해 회사에서는 내게 두 가지 새로운 역할을 맡겼다. 하나는 스쿼드의 데이터를 집중적으로 분석하는 '전담 DA'였고, 다른 하나는 데이터..

일상&잡담 2024.12.25

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 4

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 3에서 이어집니다. PART 4. 패널데이터8장 이중차분법패널데이터- 시간에 따라 반복해서 관측되는 데이터 구조 → 랜덤화가 불가능할 때 인과효과를 식별할 수 있는 대안- 여러 기간에 걸쳐 동일 실험 대상을 관측함으로써, 대상 및 시간에 걸쳐 상관관계를 활용하여 누락된 잠재적 결과 Y(1)을 추정할 수 있다. 여러 시간대 t에 걸친 여러 실험 대상 i시간 벡터 t = { 1, 2, ... , Tpre, Tpre+1, ..., T }개입(처치)은 개입 후 기간(t > Tpre)의 실험군(D = 1)에만 발생처치변수 및 개입 후에 대한 조합 W = D * 1(t > Tpre) ..

데이터 2024.12.04

1 2 3 4 ··· 6

데이터리드가 될 예정입니다.

데이터를 무기로 비즈니스 가치를 창출하는 데이터 리드가 되고자 노력 중입니다 :) 스스로를 Full-stack Data Expert로 소개할 날을 꿈꿉니다.

nlp, dakerton, 데이터분석, Spark, 자연어처리, 책리뷰, 2025새해다짐, 개발공부, JAVA쪼렙탈출기, attribution model, 대격변ai시대데이터로사고하고데이터로리드하라, 데커톤, 스터디, 인과추론, GPT, data analysis, 데이터, cqgr, 일상, java,

Today :
Yesterday :

« 2025/09 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

전체 글 52

티스토리툴바