Spark 2

Databricks에서 원하는 조건의 순서에 맞게 배열 정렬하기

부제: 데이터 분석가는 그의 업무시간 중 70%를 데이터 전처리에 쓴다.  챗GPT와 논쟁 → 구글링 → 각종 도큐멘트 정독 등등의 과정을 거치며 알아낸 정보를 기록해둔다. 나중에 같은 문제를 맞닥뜨린 누군가가 해당 글을 통해 더 빠르게 문제를 해결할 수 있기를...🙏  내가 마주한 문제우리 서비스의 고객 행동을 분석하고, 관련 지표를 설계하던 중 로우데이터의 일부를 하나의 배열 안에 넣을 필요가 있었다. 근데 배열 안에 데이터를 넣을 때 event_time 순서대로 넣어야 했다. 예를 들면, 이러한 로우데이터를 가공을 통해 아래와 같은 데이터를 만들어내야 했다.   흠, 쉽네.ARRAY_AGG()로 film을 묶은 다음에 event_time 기준으로 ORDER BY 하면 되겠군.   PostgreS..

데이터 2025.01.12

(Dataquest) Spark를 활용한 대규모 데이터셋 분석

Dataquest: Spark 강의 의 내용을 공부한 후 정리한 글입니다. Spark 등장 배경데이터 수집 추세가 증가함에 따라 기존 기술로는 대량의 데이터를 분석할 수 없었기 때문에 작업을 수행할 수 있는 새로운 도구와 접근 방식을 구축해야 했다.엔지니어들은 처음에 더 크고 강력한 컴퓨터를 사용하여 데이터를 처리하려고 시도했지만 여전히 많은 계산 문제로 인해 한계에 부딪혔다. 그 과정에서 그들은 결과를 계산하기 위해 수백 또는 수천 대의 컴퓨터에 계산을 효율적으로 분배하는 MapReduce와 같은 패러다임을 개발했다. 즉, Hadoop은 빠르게 빅 데이터를 위한 지배적인 처리 도구 키트가 된 오픈 소스 프로젝트이다.더보기MapReduce분산 서버를 마샬링(메모리 상에 형상화된 객체 데이터를 적당한 다른..

데이터 2024.11.24