2024/11 5

(Dataquest) Spark를 활용한 대규모 데이터셋 분석

Dataquest: Spark 강의 의 내용을 공부한 후 정리한 글입니다. Spark 등장 배경데이터 수집 추세가 증가함에 따라 기존 기술로는 대량의 데이터를 분석할 수 없었기 때문에 작업을 수행할 수 있는 새로운 도구와 접근 방식을 구축해야 했다.엔지니어들은 처음에 더 크고 강력한 컴퓨터를 사용하여 데이터를 처리하려고 시도했지만 여전히 많은 계산 문제로 인해 한계에 부딪혔다. 그 과정에서 그들은 결과를 계산하기 위해 수백 또는 수천 대의 컴퓨터에 계산을 효율적으로 분배하는 MapReduce와 같은 패러다임을 개발했다. 즉, Hadoop은 빠르게 빅 데이터를 위한 지배적인 처리 도구 키트가 된 오픈 소스 프로젝트이다.더보기MapReduce분산 서버를 마샬링(메모리 상에 형상화된 객체 데이터를 적당한 다른..

데이터 2024.11.24

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 3

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 2에서 이어집니다. PART 3. 이질적 효과와 개인화6장 이질적 처치효과실험 대상 i마다 처치 효과 Γi가 다를 수 있다. 어떤 대상이 처치에 더 잘 반응하는지 아는 것은 처치 대상을 결정하는 데 중요한 역할을 한다.ex) 할인에 더 민감한 고객이라면 할인 쿠폰을 주면 유익하지만, 그렇지 않다면 쿠폰의 효과가 없을 수 있다.  평균 처치효과 ATE이산형일 때연속형일 때조건부 평균 처치효과 CATE: X에 대한 조건부는 각 실험 대상이 공변량 X로 정의된 특성에 따라 처치효과가 다를 수 있음을 의미한다. 머신러닝의 목적: 결과(Y) 예측 CATE의 목적: 결과에 미치는 처치(..

데이터 2024.11.22

3달 간의 SQL스터디를 마무리하며... (부제: 모더레이터로써의 스터디 후기)

회사 동료들과 2024년 9월 24일 첫 회차를 시작으로, 2024년 11월 12일 마지막 회차까지 마무리하며 약 3달 간의 스터디가 끝났다.워낙 몰랐던 지식을 습득하고 배우는 것을 좋아해서 스터디는 이것저것 다양하게 해왔었는데, 모더레이터(Moderator)로써 내가 스터디를 진행하고 이끌어나가는 경험은 처음이었던지라 많이 떨리면서도 책임감도 크게 느껴지는, 새로운 경험이었다. 이 새로움이 잊혀지기 전에 글로써 남겨보고자 한다.  0. 처음 시작은 서동요였다."유진님. 회사에서 SQL스터디 하신다면서요!""아 진짜요? SQL도 따로 스터디하시는구나. 누가 하신대요?""어, 유진님이 가르쳐주신다는데요?""? ...제가요?" 친한 디렉터 동료와 우연히 엘레베이터에서 만나 반갑게 인사를 나눴는데 들은 말이었..

일상&잡담 2024.11.16

(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 2

[실무로 통하는 인과추론 with 파이썬]을 읽고 내용을 정리한다.(스터디) 실무로 통하는 인과추론 with 파이썬 - PART 1에서 이어집니다. PART 2. 편향 보정4장 유용한 선형회귀회귀분석: 인과추론의 핵심이자 가장 많이 사용되는 방법으로 응용 방법론의 주요 구성 요소이기도 하다.*선형회귀분석은 평균제곱오차(MSE, Mean Squared Error)를 최소화하는 매개변수를 찾는다.보정 공식을 적용하려면? 데이터를 특성 X에 따라 여러 그룹으로 나눠야 한다.데이터가 특성이 많고 일부가 이산형이 아닌 연속형이라면? → 차원의 저주 발생 차원이 늘어날수록 데이터 포인트 간의 거리 계산, 데이터의 밀도, 그리고 모델의 학습 및 일반화가 어려워 지는 현상1. 데이터 희소성: 고차원 공간에서는 데이터 ..

데이터 2024.11.09

그래프 신경망(Graph Neural Network, GNN)이란 무엇인가?

그래프 신경망(Graph Neural Networks, GNN)은 그래프 구조 데이터를 처리하고 분석하기 위해 설계된 딥러닝 모델이다. 그래프 구조화된 데이터를 처리하는 데 특화된 모델이기 때문에 GNN을 사용하기에 앞서 해결하려는 문제와 내가 가진 데이터의 구조를 파악하는 과정이 선행되어야 한다.    회사 프로젝트에서 모델 성능 개선을 위하여 주요한 피처가 무엇인지를 파악하는 피처 엔지니어링 업무를 맡게 되었다. '의미 있는' 사용자의 임베딩값을 추출한다면 모델의 주요한 피처도 역추적으로 알아낼 수 있지 않을까 싶었고, 동료들과 논의를 거쳐 GNN을 활용해서 해당 작업을 해보기로 했다. 워낙 Graph를 많은 분야에서 활용하다 보니까, GNN도 여러 번 들어보긴 했는데 내가 직접 실무에 적용해 본 경..

데이터 2024.11.03