전체 글 42

(Dataquest) Spark를 활용한 대규모 데이터셋 분석

Dataquest: Spark 강의 의 내용을 공부한 후 정리한 글입니다. Spark 등장 배경데이터 수집 추세가 증가함에 따라 기존 기술로는 대량의 데이터를 분석할 수 없었기 때문에 작업을 수행할 수 있는 새로운 도구와 접근 방식을 구축해야 했다.엔지니어들은 처음에 더 크고 강력한 컴퓨터를 사용하여 데이터를 처리하려고 시도했지만 여전히 많은 계산 문제로 인해 한계에 부딪혔다. 그 과정에서 그들은 결과를 계산하기 위해 수백 또는 수천 대의 컴퓨터에 계산을 효율적으로 분배하는 MapReduce와 같은 패러다임을 개발했다. 즉, Hadoop은 빠르게 빅 데이터를 위한 지배적인 처리 도구 키트가 된 오픈 소스 프로젝트이다.더보기MapReduce분산 서버를 마샬링(메모리 상에 형상화된 객체 데이터를 적당한 다른..

데이터 2024.11.24

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 3

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 2에서 이어집니다. PART 3. 이질적 효과와 개인화6장 이질적 처치효과실험 대상 i마다 처치 효과 Γi가 다를 수 있다. 어떤 대상이 처치에 더 잘 반응하는지 아는 것은 처치 대상을 결정하는 데 중요한 역할을 한다.ex) 할인에 더 민감한 고객이라면 할인 쿠폰을 주면 유익하지만, 그렇지 않다면 쿠폰의 효과가 없을 수 있다.  평균 처치효과 ATE이산형일 때연속형일 때조건부 평균 처치효과 CATE: X에 대한 조건부는 각 실험 대상이 공변량 X로 정의된 특성에 따라 처치효과가 다를 수 있음을 의미한다. 머신러닝의 목적: 결과(Y) 예측 CATE의 목적: 결과에 미치는 처치(..

데이터 2024.11.22

3달 간의 SQL스터디를 마무리하며... (부제: 모더레이터로써의 스터디 후기)

회사 동료들과 2024년 9월 24일 첫 회차를 시작으로, 2024년 11월 12일 마지막 회차까지 마무리하며 약 3달 간의 스터디가 끝났다.워낙 몰랐던 지식을 습득하고 배우는 것을 좋아해서 스터디는 이것저것 다양하게 해왔었는데, 모더레이터(Moderator)로써 내가 스터디를 진행하고 이끌어나가는 경험은 처음이었던지라 많이 떨리면서도 책임감도 크게 느껴지는, 새로운 경험이었다. 이 새로움이 잊혀지기 전에 글로써 남겨보고자 한다.  0. 처음 시작은 서동요였다."유진님. 회사에서 SQL스터디 하신다면서요!""아 진짜요? SQL도 따로 스터디하시는구나. 누가 하신대요?""어, 유진님이 가르쳐주신다는데요?""? ...제가요?" 친한 디렉터 동료와 우연히 엘레베이터에서 만나 반갑게 인사를 나눴는데 들은 말이었..

일상&잡담 2024.11.16

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 2

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 1에서 이어집니다. PART 2. 편향 보정4장 유용한 선형회귀회귀분석: 인과추론의 핵심이자 가장 많이 사용되는 방법으로 응용 방법론의 주요 구성 요소이기도 하다.*선형회귀분석은 평균제곱오차(MSE, Mean Squared Error)를 최소화하는 매개변수를 찾는다.보정 공식을 적용하려면? 데이터를 특성 X에 따라 여러 그룹으로 나눠야 한다.데이터가 특성이 많고 일부가 이산형이 아닌 연속형이라면? → 차원의 저주 발생 차원이 늘어날수록 데이터 포인트 간의 거리 계산, 데이터의 밀도, 그리고 모델의 학습 및 일반화가 어려워 지는 현상1. 데이터 희소성: 고차원 공간에서는 데이터 ..

데이터 2024.11.09

그래프 신경망(Graph Neural Network, GNN)이란 무엇인가?

그래프 신경망(Graph Neural Networks, GNN)은 그래프 구조 데이터를 처리하고 분석하기 위해 설계된 딥러닝 모델이다. 그래프 구조화된 데이터를 처리하는 데 특화된 모델이기 때문에 GNN을 사용하기에 앞서 해결하려는 문제와 내가 가진 데이터의 구조를 파악하는 과정이 선행되어야 한다.    회사 프로젝트에서 모델 성능 개선을 위하여 주요한 피처가 무엇인지를 파악하는 피처 엔지니어링 업무를 맡게 되었다. '의미 있는' 사용자의 임베딩값을 추출한다면 모델의 주요한 피처도 역추적으로 알아낼 수 있지 않을까 싶었고, 동료들과 논의를 거쳐 GNN을 활용해서 해당 작업을 해보기로 했다. 워낙 Graph를 많은 분야에서 활용하다 보니까, GNN도 여러 번 들어보긴 했는데 내가 직접 실무에 적용해 본 경..

데이터 2024.11.03

전문성이란 무엇인가 ?

전문성은 나의 시간을 대가로 얻어낸 타인의 인정이다.  전문성을 갖추고 싶다고 말만 하면서, 정작 행동으로 옮기지 않았던.  스스로에게서 문제와 해결책을 찾지 않고, 외부에게서 문제와 해결책을 찾았던.  지금도 많이 부족하지만, 지금보다도 훨씬 부족했던 과거의 저에 대한 회고글입니다.  회사 내에서의 연차가 쌓일수록, 맡은 일이 하나둘 늘어갔다. 맡은 일이 하나둘 늘어갈수록, 스스로 느끼는 책임이 더 커졌다. 책임이 커질수록, 일을 더 잘하고 싶었다. 내가 맡은 일을 잘해내고 싶다, 이 일만큼은 그 누구보다도 내가 제일 잘했으면 좋겠다, 내가 한 일이 회사에 큰 도움이 되었으면 좋겠다. 하지만 내가 한 결과물을 보면 자신이 없어졌다. 남들도 이정도는 할 수 있을 것 같았고, 보완해야할 점들이 자꾸만 눈에..

일상&잡담 2024.10.26

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 1

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다. PART 1. 인과추론 기초1장 인과추론 소개연관관계(association)는 인과관계(causation)가 아니다. 하지만 연관관계는 때로 인과관계가 될 수도 있다.연관관계: 두 개의 수치나 확률변수가 같이 움직이는 것인과관계: 한 변수의 변화가 다른 변수의 변화를 일으키는 것인과추론: 연관관계로부터 인과관계를 추론하고 언제, 그리고 왜 서로 다른지 이해하는 과학적 방법론원인과 결과의 관계를 알아야만 원인에 개입하여 원하는 결과를 가져올 수 있다.u: 모델 외부의 변수 (모델링하지 않을 변수)T: 처치변수←: 등호 대신 화살표를 사용하여 인과관계의 비가역성(nonreversibility)을 표시Y ← f(T, u): 처치변수 T는 다른..

데이터 2024.10.20

AB테스트는 이유 있는 제품을 만든다.

아직 2개월 반이 남긴 했지만, 올해는 저에게 정말 다사다난한 한 해였습니다. 다양한 스쿼드에서 전담 데이터분석가로 일했고, 여러 직무의 동료들과 협업했으며, 분석 업무 외에도 경험해보지 못했던 많은 업무들을 맡았어요. 그러다가 3분기에 들어서서는 아예 1개의 스쿼드만 맡도록 바뀌었어요. 고객이 좋아할만한 템플릿을 추천해주는 추천스쿼드 담당 DA가 된거죠. 스쿼드 내에는 추천모델을 개발하는 개발자님들이 계셨고, 그분들이 개발하신 추천모델이 고객이 실제로 좋아하는지 체크할 필요가 있었습니다. 그러기 위해서 스쿼드에서 선택한 방법은 'AB테스트'였습니다. 데이터직군이라면(데이터직군 외에도) 누구나 AB테스트에 관심이 많을 거라 생각해요. 그래서 저는 오늘 저희 팀이 진행해 온, 또 앞으로도 진행할 'AB테..

데이터 2024.10.03

PM을 위한 데이터 리터러시(프로덕트 데이터 분석) 강의를 완강하며…

📝 강의를 듣게 된 계기 일을 잘하고 싶었다. 나를 비롯한 직장인이라면 누구나 직장을 다니는 동안 계속해서 하는 고민일테지만, 정말로 일을 잘하고 싶었다. 현재 맡은 업무를 잘 해내서 더 비중 있고 회사에서 중요하게 생각하는 프로젝트를 맡고 싶었고, 그런 프로젝트를 맡은 경험을 하나둘 쌓아나가면서 내 커리어를 발전시켜나가고 싶었다. 학생 때 제일 좋아하던 과목이 수학이었는데, 수학은 답이 명확히 정해져 있기 때문이었다. 하지만 “일을 잘한다”는 명제에는 답이 명확히 정해져 있지 않았고, 그랬기에 더욱 어려웠다. 나는 최선을 다했는데 이게 다른 팀원에게도, 고객에게도, 궁극적으로 회사 서비스 차원에서도 최선이 맞을까? 업무를 수행하는 데에 있어서 더 나은 방법은 없었을까? 등의 고민을 계속했지만 답이 나오..

데이터 2023.07.14

💻 글또 데이터빌리지 반상회 - 여러 데이터기사님들과의 만남 🚖

지난번 다짐글에서도 쓴 적 있듯이 나는 글또(: 글쓰는 또라이가 세상을 바꾼다) 커뮤니티를 7기에 이어 8기까지 참여 중이다. 글또는 7기부터 '글또콘'이라는 이름으로 글또 참여원들이 모여 네트워킹하고 발표를 듣는 행사를 진행 중인데, 7기 때 참여했던 경험이 너무나도 좋게 남아있어서 이번에 참여인원을 모집한다는 공지가 올라오자마자 바로 [ ✅ 참석하겠습니다 ] 라는 답을 남겼고, 2023년 6월 22일 글또콘에 다녀오게 되었다. 날이 갈수록 참여자가 많아지고 규모가 커져가는 글또인지라, 이번 기수도 역대 최대 인원으로 사람들이 많았다. 그렇기 때문에 글또 운영진은 한 번의 글또콘에 모든 참여자를 받는 건 불가능하다고 판단해 빌리지별로 글또콘을 따로 운영하였다. *여기서 잠깐! 빌리지란 글또 내의 분류체..

일상&잡담 2023.06.29