💻 글또 데이터빌리지 반상회 - 여러 데이터기사님들과의 만남 🚖
지난번 다짐글에서도 쓴 적 있듯이 나는 글또(: 글쓰는 또라이가 세상을 바꾼다) 커뮤니티를 7기에 이어 8기까지 참여 중이다. 글또는 7기부터 '글또콘'이라는 이름으로 글또 참여원들이 모여 네트워킹하고 발표를 듣는 행사를 진행 중인데, 7기 때 참여했던 경험이 너무나도 좋게 남아있어서 이번에 참여인원을 모집한다는 공지가 올라오자마자 바로 [ ✅ 참석하겠습니다 ] 라는 답을 남겼고, 2023년 6월 22일 글또콘에 다녀오게 되었다.
날이 갈수록 참여자가 많아지고 규모가 커져가는 글또인지라, 이번 기수도 역대 최대 인원으로 사람들이 많았다. 그렇기 때문에 글또 운영진은 한 번의 글또콘에 모든 참여자를 받는 건 불가능하다고 판단해 빌리지별로 글또콘을 따로 운영하였다. *여기서 잠깐! 빌리지란 글또 내의 분류체계를 뜻하는 말로, 백엔드빌리지 / 프론트엔드빌리지 / 데이터빌리지 등으로 나뉘어져 있다. 나는 데이터분석가이기 때문에 데이터빌리지에 속해있다🙂 다른 빌리지의 사람들을 못 만나봐서 아쉽지 않았냐고 묻는다면 전혀! 작년 글또콘에서 쌩 개발영역의 발표는 이해가 어려워 멍때렸던 기억이 있는 나로써는 오히려좋아 였다. 같은 직무의 사람들을 더 많이 만나보고 싶기도 했고 말이다ㅎㅎ
이번 글또 데이터빌리지 반상회의 컨셉은 '택시기사'였는데, 전국각지에서 일하다가 모여 이야기를 나누는 기사식당처럼 AI/데이터분석/데이터엔지니어 등 데이터를 업으로 삼고 있는 여러 분야의 사람들이 모여 이야기를 나누는 반상회였으면 좋겠다는 생각에서 기획하였다고 한다. 발표 시작하기 전에 운영진이 준비한 피자🍕를 노나먹으면서 네트워킹 시간을 가졌는데, 이 때 데이터 엔지니어, 데이터 분석가, 시각화 엔지니어 등 다양한 회사의 다양한 직무의 사람들을 만날 수 있어서 좋았다. 똑같은 데이터를 다루는 일을 하고 있지만, 조금만 깊이 들어가도 굉장히 세분화되어있구나를 느낄 수 있었고, 지금은 세분화되어있다고 생각이 들어도 결국 내가 커리어를 쌓아가고 성장해나가면서 저러한 일들도 어느정도는 해낼 줄 알아야한다는 생각에 그분들의 말씀에 더 귀를 기울이게 되었다. 간단한 저녁식사 겸 친목도모 시간이 끝난 후에는 3분의 발표자의 발표를 듣는 시간을 가졌다.
나는 데이터분석가에서 멈추는 게 아니라 데이터전문가로 성장해나가고 싶은 사람이기 때문에
분석, 엔지니어링, 시각화, AI 모델 구현까지 다 해내고싶다는 욕심을 가지고 있다.
사내 첫 데이터사이언티스트의 삽질기 (Feat. 고군분투)
발표자: 안민재님
발표자님께서는 첫 입사 시 유일한 팀원으로 팀장과 함께 사이언티스트팀을 창단하게 된 날, ‘자네 우리 데이터로 AI 만들 수 있겠나?’라는 질문을 들었다고 한다. 이런 질문을 듣고 나서 아래와 같은 순서로 일을 처리하며 문제를 해결해나갔다고 하셨다.
- 현재 상황 파악하기 ➡️ SWOT분석을 통한 회사의 강점과 약점 파악 ➡️ 파악한 약점: 인프라 부족 & 도메인지식 부족
- 약점을 해결하기 위해 타 부서와의 소통 진행. 이 때 소통과 회의의 무한굴레에 빠진것마냥 계속해서 질문과 답변을 이어나갔다고 말씀하셨다.
- 회사에는 어쩔 수 없는 현실적인 “제약조건”이 존재하는데, 이를 어떤식으로 대처할 것인가.
이미 많은 고난을 겪고 고민하며 나름대로의 해결책을 낸 사람의 경험담을 듣는 것, 그 자체만으로 주니어(a.k.a 쪼렙)인 나한테는 굉장한 도움이 되었다. 나도 회사에서 난제를 만나면 단번에 내가 모든 걸 해결하려고 하기보다는 발표자님처럼 내가 할 수 있는 한해서 해결책을 내고, 나만으로는 안 될 때는 피곤하더라도 타 부서 타 팀원과의 소통을 계속 이어나가야겠다고 다짐했다. 발표자님이 발표가 끝날 즈음에 "저는 수많은 삽질을 해왔고, 이러한 제 삽질은 계속 될 것입니다."라고 말씀하셨는데 역시 일이라는 건 아무리 경험이 많아져도 쉬워지는 법이 없구나 하는 생각이 들어 약간 씁쓸해지기도 했다😂
데이터로 뜯어보는 커뮤니티
발표자: 조동민님
이분은 작년 글또콘에서도 발표하셨던 분인데 2년 연속으로 발표를 한다는 게 쉬운 일이 아닌데 정말 대단하다는 생각이 들었다. 올해의 발표는 글또 슬랙의 수많은 텍스트 데이터들을 수집하자고 분석한 사이드 프로젝트에 대해 경험담을 공유해주셨다. 슬랙 내의 게시글, 이모티콘, 쓰레드의 댓글까지도 모두 다 정확히 수집하여 빅쿼리에 저장한 후에 데이터를 분석하셨다고 한다. 회사에서 일을 할 때도 느끼는 거지만 데이터 분석만큼이나 데이터 수집과 전처리가 까다롭고 힘든데 ㅡ가끔은 데이터 수집과 전처리가 분석 자체보다 더 어렵고 빡센 것 같기도 하다...🫥💦ㅡ 발표자님도 데이터분석가라고 하셨는데 이 일련의 과정을 스스로 진행해내셨다는 걸 보고 나였으면 해낼 수 있었을까? 중간에 포기해버리지 않았을까? 등등의 자기반성을 하게 되면서 본받고 싶다는 생각이 들었다.
깃허브에서 commit할 때 과거의 commit도 유출이 된다는 걸 몰라서 생긴 토큰 유출 사건과 데이터 저장시 삭제 주기를 고려하지 못한 바람에 생긴 메시지함 비움 사건, 도저히 해결해내지 못해서 이래도 되는 건지는 모르겠지만 파티션을 그냥 없애버린 파티션 이슈 등 프로젝트를 진행하면서 생긴 문제 케이스들도 말씀해주셨는데 이 또한 무척이나 재밌었다.
이렇게 데이터 수집을 끝마치고 나서 텍스트 데이터를 분석해 본 결과는 아래와 같았다.
- 글또 참여자 수 : 337
- (공개채널 기준) 채널 : 83
- 또봇이 제출한 메시지 : 2573
- 사용된 이모티콘 개수 : 72577
- 댓글 : 12011
- 게시물 : 3214
내 생각보다도 글또가 훨씬 크고 슬랙도 활발하게 사용되고 있었다는 걸 느꼈고 상위 5%의 사람이 되려면 몇 개의 게시물과 몇 개의 댓글을 달면 되는지도 알려주셨는데ㅋㅋ 이번 기수 남은 기간동안 그 기준치에 한 번 도전해봐야겠다는 의도치않는 도전욕구도 불타올랐다ㅋㅋ
{ } 의 장벽을 넘어서 - 기계번역 연구개발 후기
발표자: 최민주님
이번 발표는 프랑스 워킹홀리데이 시절 불어가 약해 번역기를 끼고 살다보니까 번역기의 아쉬운 점이 눈에 띄기 시작하였고, 더 성능이 좋은 번역기를 만들어보고 싶다는 꿈이 생겼던 발표자님께서 진행한 기계번역 연구개발에 대한 경험 공유였다. “내가 가진 기술로 언어의 장벽을 넘어 보고싶다.”
자연어처리(NLP)에 관심과 흥미를 가지고 있는 나로써는 발표 서두부터 심장이 뛰었다. 게다가 발표자님이 발표스킬이 너무 좋으셨다..! 발표자의 말에 매료된 적이 별로 없는데, 이번 발표는 나도 모르게 빠져들어 응응 그렇지 하고 혼자 리액션하며 들었다🤣 진짜 세바시나 TED를 보고있는 기분이었다...
기계번역이 어떻게 발전해왔는지와
RBMT: Rule Based Machine Translation (규칙 기반) ➡️ PBMT : Phrase Based Machine Translation (구문 기반) ➡️ SMT : Statistical Machine Translation (통계 기반) ➡️ NMT : Neural Machine Translation (인공신경망(AI) 기반)
기계번역의 4가지 요소에는 어떤 게 있는지
- Tokenization
- Model Training
- Inference Speed Optimization
- Performance Optimization
기계번역의 순서는 어떻게 되는지
데이터셋 확보 ➡️ Tokenization ➡️ Model Train ➡️ Evaluation ➡️ Detokenization
등을 설명해주시면서 본인은 본인의 프로젝트에서 해당 과정을 진행할 때 어떤식으로 진행하였고 어떤 문제점을 겪었는지, 그 문제는 또 어떻게 대처했는지를 말씀해주셨다. 실제로 발표자님께서는 이 프로젝트로 논문을 2개나 쓰셨다고 하셨다.
결코 쉽지 않았지만 본인은 새로운 기술 분야의 진입 장벽, 기술 장벽, 심리적 장벽을 넘어섰다고 말씀해주시면서 여러분도 여러분 삶 앞에 있는 장벽이 어떤 게 있는지, 그 장벽을 어떻게 뛰어넘을 것인지를 생각해보라고 말씀해주시며 뛰어넘는 순간 그건 더이상 장벽이 아니라 여러분을 더 높은 곳에 올려줄 계단이 될 거라고 해주셨는데 그 말이 내 가슴에 너무 와닿고 존경심까지 일었다. 발표자님 짱…!!🥹
확실히 지난 7기의 글또콘과 다르게 데이터로만 특화된 글또콘이다보니까 지난 기수 글또콘보다 발표주제도 훨씬 관심이 가는 주제라 더 집중해서 듣게 되었고, 사람들도 데이터 직군 분들만 (소수의 데이터에 관심있는 개발자님들도 보긴 했다) 모여있어서 말걸기도 대화나누기도 더 편했다. 완전 만족 그자체👏👏
특히 데이터 직종이 하는 업무는 비슷해도 도메인은 가지각색일 수 밖에 없어서, 발표자님들의 도메인을 들을 수 있어서 내가 모르는 ㅡ어쩌면 미래의 내가 하게 될 수도 있는ㅡ 세상의 이야기를 듣는 시간이어서 더욱 좋았다.