데이터 13

(Dataquest) Spark를 활용한 대규모 데이터셋 분석

Dataquest: Spark 강의 의 내용을 공부한 후 정리한 글입니다. Spark 등장 배경데이터 수집 추세가 증가함에 따라 기존 기술로는 대량의 데이터를 분석할 수 없었기 때문에 작업을 수행할 수 있는 새로운 도구와 접근 방식을 구축해야 했다.엔지니어들은 처음에 더 크고 강력한 컴퓨터를 사용하여 데이터를 처리하려고 시도했지만 여전히 많은 계산 문제로 인해 한계에 부딪혔다. 그 과정에서 그들은 결과를 계산하기 위해 수백 또는 수천 대의 컴퓨터에 계산을 효율적으로 분배하는 MapReduce와 같은 패러다임을 개발했다. 즉, Hadoop은 빠르게 빅 데이터를 위한 지배적인 처리 도구 키트가 된 오픈 소스 프로젝트이다.더보기MapReduce분산 서버를 마샬링(메모리 상에 형상화된 객체 데이터를 적당한 다른..

데이터 2024.11.24

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 3

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 2에서 이어집니다. PART 3. 이질적 효과와 개인화6장 이질적 처치효과실험 대상 i마다 처치 효과 Γi가 다를 수 있다. 어떤 대상이 처치에 더 잘 반응하는지 아는 것은 처치 대상을 결정하는 데 중요한 역할을 한다.ex) 할인에 더 민감한 고객이라면 할인 쿠폰을 주면 유익하지만, 그렇지 않다면 쿠폰의 효과가 없을 수 있다.  평균 처치효과 ATE이산형일 때연속형일 때조건부 평균 처치효과 CATE: X에 대한 조건부는 각 실험 대상이 공변량 X로 정의된 특성에 따라 처치효과가 다를 수 있음을 의미한다. 머신러닝의 목적: 결과(Y) 예측 CATE의 목적: 결과에 미치는 처치(..

데이터 2024.11.22

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 2

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 1에서 이어집니다. PART 2. 편향 보정4장 유용한 선형회귀회귀분석: 인과추론의 핵심이자 가장 많이 사용되는 방법으로 응용 방법론의 주요 구성 요소이기도 하다.*선형회귀분석은 평균제곱오차(MSE, Mean Squared Error)를 최소화하는 매개변수를 찾는다.보정 공식을 적용하려면? 데이터를 특성 X에 따라 여러 그룹으로 나눠야 한다.데이터가 특성이 많고 일부가 이산형이 아닌 연속형이라면? → 차원의 저주 발생 차원이 늘어날수록 데이터 포인트 간의 거리 계산, 데이터의 밀도, 그리고 모델의 학습 및 일반화가 어려워 지는 현상1. 데이터 희소성: 고차원 공간에서는 데이터 ..

데이터 2024.11.09

그래프 신경망(Graph Neural Network, GNN)이란 무엇인가?

그래프 신경망(Graph Neural Networks, GNN)은 그래프 구조 데이터를 처리하고 분석하기 위해 설계된 딥러닝 모델이다. 그래프 구조화된 데이터를 처리하는 데 특화된 모델이기 때문에 GNN을 사용하기에 앞서 해결하려는 문제와 내가 가진 데이터의 구조를 파악하는 과정이 선행되어야 한다.    회사 프로젝트에서 모델 성능 개선을 위하여 주요한 피처가 무엇인지를 파악하는 피처 엔지니어링 업무를 맡게 되었다. '의미 있는' 사용자의 임베딩값을 추출한다면 모델의 주요한 피처도 역추적으로 알아낼 수 있지 않을까 싶었고, 동료들과 논의를 거쳐 GNN을 활용해서 해당 작업을 해보기로 했다. 워낙 Graph를 많은 분야에서 활용하다 보니까, GNN도 여러 번 들어보긴 했는데 내가 직접 실무에 적용해 본 경..

데이터 2024.11.03

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 1

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다. PART 1. 인과추론 기초1장 인과추론 소개연관관계(association)는 인과관계(causation)가 아니다. 하지만 연관관계는 때로 인과관계가 될 수도 있다.연관관계: 두 개의 수치나 확률변수가 같이 움직이는 것인과관계: 한 변수의 변화가 다른 변수의 변화를 일으키는 것인과추론: 연관관계로부터 인과관계를 추론하고 언제, 그리고 왜 서로 다른지 이해하는 과학적 방법론원인과 결과의 관계를 알아야만 원인에 개입하여 원하는 결과를 가져올 수 있다.u: 모델 외부의 변수 (모델링하지 않을 변수)T: 처치변수←: 등호 대신 화살표를 사용하여 인과관계의 비가역성(nonreversibility)을 표시Y ← f(T, u): 처치변수 T는 다른..

데이터 2024.10.20

AB테스트는 이유 있는 제품을 만든다.

아직 2개월 반이 남긴 했지만, 올해는 저에게 정말 다사다난한 한 해였습니다. 다양한 스쿼드에서 전담 데이터분석가로 일했고, 여러 직무의 동료들과 협업했으며, 분석 업무 외에도 경험해보지 못했던 많은 업무들을 맡았어요. 그러다가 3분기에 들어서서는 아예 1개의 스쿼드만 맡도록 바뀌었어요. 고객이 좋아할만한 템플릿을 추천해주는 추천스쿼드 담당 DA가 된거죠. 스쿼드 내에는 추천모델을 개발하는 개발자님들이 계셨고, 그분들이 개발하신 추천모델이 고객이 실제로 좋아하는지 체크할 필요가 있었습니다. 그러기 위해서 스쿼드에서 선택한 방법은 'AB테스트'였습니다. 데이터직군이라면(데이터직군 외에도) 누구나 AB테스트에 관심이 많을 거라 생각해요. 그래서 저는 오늘 저희 팀이 진행해 온, 또 앞으로도 진행할 'AB테..

데이터 2024.10.03

PM을 위한 데이터 리터러시(프로덕트 데이터 분석) 강의를 완강하며…

📝 강의를 듣게 된 계기 일을 잘하고 싶었다. 나를 비롯한 직장인이라면 누구나 직장을 다니는 동안 계속해서 하는 고민일테지만, 정말로 일을 잘하고 싶었다. 현재 맡은 업무를 잘 해내서 더 비중 있고 회사에서 중요하게 생각하는 프로젝트를 맡고 싶었고, 그런 프로젝트를 맡은 경험을 하나둘 쌓아나가면서 내 커리어를 발전시켜나가고 싶었다. 학생 때 제일 좋아하던 과목이 수학이었는데, 수학은 답이 명확히 정해져 있기 때문이었다. 하지만 “일을 잘한다”는 명제에는 답이 명확히 정해져 있지 않았고, 그랬기에 더욱 어려웠다. 나는 최선을 다했는데 이게 다른 팀원에게도, 고객에게도, 궁극적으로 회사 서비스 차원에서도 최선이 맞을까? 업무를 수행하는 데에 있어서 더 나은 방법은 없었을까? 등의 고민을 계속했지만 답이 나오..

데이터 2023.07.14

GPT와 BERT, 두 모델의 공통점과 차이점에 대하여...

자연어처리(NLP)를 찍먹해본 경험이 있다면 GPT와 BERT, 이 2개의 모델은 한 번쯤은 들어봤으리라 생각한다. GPT(Generative Pre-trained Transformer)와 BERT(Bidirectional Encoder Representations from Transformers)은 자연어처리에 사용되는 대표 모델이다. 나 또한 자연어처리에 관심이 있는 사람으로써, 이 2개의 모델을 들어보고 활용한 서비스도 여럿 봐왔다. *요새 이슈인 챗GPT도 대표적으로 GPT 모델을 활용하여 만들어진 AI이다. 하지만 이 2개의 모델 차이가 뭐냐라는 질문에는 대답하지 못할만큼 얕은 지식의 소유자였다. 그렇기 때문에 이번에 2가지 모델의 차이점을 알아보고 정리해보았다. 모델 구조 GPT는 트랜스포머 ..

데이터 2023.05.19

GPT, 그게 도대체 뭔데?

요새 챗GPT가 이슈이다. 아니, ‘아직까지 이슈이다라는 말이 정확하겠다. 핫토픽으로 등장한지 꽤 되었는데도 아직도 뜨거운 감자로 IT 관련 뉴스기사 랭킹을 독차지하고 있으니 말이다. IT 관련 업종이 아닌 내 친구들도 모두 챗GPT에 대해 알고 있고, 대다수가 한 번 이상 써봤을 정도니 말 다했다. 나도 업무에서 막히는 부분이 나올 때마다 이제는 구글링을 하는 게 아니라 챗GPT한테 물어보는 경우가 더 많아졌다. 하루에도 몇 번씩 챗GPT에 접속하고 질문을 던지다보니 궁금증이 생겼다. 왜 "챗-GPT"일까? '챗'은 서로 채팅(Chat)하며 사용자의 궁금증을 해결하는 방식이니까 이해가 되는데, 'GPT'는 왜 붙어진 이름일까? 챗GPT 이후 등장한 비슷한 형식의 AI인 트루스GPT, 오토GPT도 앞의 ..

데이터 2023.05.04

'이탈 위험도' 들어본 적 있나요?

서론 회사에서 데이터 분석가로 일하고 있다면, 아니 분석가가 아니더라도 데이터를 다루는 일을 하고 있다면 ‘이탈’이라는 단어는 숱하게 많이 들어보았을 것이다. 이탈은 일반적으로 고객이 제공하는 제품이나 서비스를 더 이상 이용하지 않거나 구독을 취소하는 것을 의미한다. 이탈이 발생하면 회사는 수익을 상실하게 되고, 이탈의 수가 클수록 수익 상실률은 커지기 때문에 이탈은 고객 충성도와 회사 수익성에 직접적인 영향을 미치는 중요한 문제이다. 이러한 이유로 어느 정도 데이터를 중요시하는 회사라면 회사 내부적으로 이탈률ㅡ이탈을 측정하는 대표 지표ㅡ을 측정하는 대시보드를 별도로 관리하고 있는 게 일반적이다. 이탈률 ‘이탈률’은 특정 기간 동안 고객 중에서 이탈한 고객의 수를 전체 고객 수로 나눈 비율을 뜻한다. 이..

데이터 2023.04.21