카카오 아레나 데이터 경진대회 1등 노하우 (상품 카테고리 분류와 브런치 글 개인화추천으로 배우는 데이터 분석 실무)

카카오 아레나 데이터 경진대회 1등 노하우 (상품 카테고리 분류와 브런치 글 개인화추천으로 배우는 데이터 분석 실무)

$27.00
Description
카카오 아레나 데이터 경진대회 1등 노하우를 공개합니다!
카카오 아레나 데이터 경진 대회 1회, 2회 대회의 문제와 데이터, 우승 솔루션을 상세히 설명하고 있습니다. 단순한 머신러닝과 데이터 분석에 대한 설명을 넘어, 실무에서 풀고자 하는 문제를 이해하고, 서비스로부터 수집된 공개 데이터셋과 실제 대회 우승 솔루션을 통해 실질적인 머신러닝 문제를 푸는 과정을 이해하고 경험할 수 있습니다.

★ 이 책에서 배우는 내용 ★
◎ 카카오의 브런치와 쇼핑하우 서비스에서 데이터를 활용하는 방법
◎ 데이터 분석 경진대회에 참가하는 방법부터 우승자의 필승 비법까지
◎ 자연어 처리를 위한 LSTM 및 최신 트랜스포머 인코더, 이미지 인코더, 카테고리 분류의 원리와 활용법
◎ 카카오는 당신이 무슨 글을 읽을지 이미 알고 있다! 콘텐츠 기반 필터링과 협업 필터링의 원리와 실전 코드
◎ 여러 모델의 예측 결과를 결합하는 앙상블 기법
저자

최규민

카카오추천팀에서픽코마/카카오커머스/멜론등추천솔루션을도입하는PM업무와데이터분석가로서사용자반응과변화를관찰하는정량적분석(QuantitativeAnalysis)을통해추천솔루션을개선하는업무를하고있다.그리고카카오아레나2회/3회대회문제설계및운영에참여했다

목차

▣01장:1회대회살펴보기
1.1대회설명
__1.1.1왜상품카테고리를분류하는가?
__1.1.2대회내용설명
__1.1.3대회참여현황
1.2대회평가척도
1.3데이터셋훑어보기
__1.3.1데이터셋설명
____카테고리매핑정보
____train데이터셋
____dev데이터셋
____test데이터셋
__1.3.2대회데이터탐색
____train데이터(train.chunk.01~09)상품수
____상품카테고리분류분포
____상품명에담긴정보
____사용빈도가높은단어
____이미지피처시각화
____데이터탐색요약
1.4베이스라인모델실행
__1.4.1실행코드가져오기
__1.4.2필요패키지설치하기
__1.4.3대회데이터저장
__1.4.4학습데이터와평가데이터나누기
__1.4.5베이스라인모델학습하기
__1.4.6베이스라인모델로결과생성하기
__1.4.7결과데이터채점하기
__1.4.8결과제출하기

▣02장:쇼핑몰상품카테고리분류1등솔루션
2.1접근방법
__2.1.1문제파악
____상세설명탭읽기
____채점탭읽기
__2.1.2데이터구성확인
__2.1.3머신러닝파이프라인구현
____데이터전처리(DataPreprocessing)
____학습(Training)
____추론(Inference)
____리더보드제출
____성능개선방법
2.2실행환경구축
__2.2.1아나콘다설치하기
____아나콘다실행하기
____작업디렉터리생성하기
__2.2.2파이토치설치하기
__2.2.3git설치하기
__2.2.4주피터노트북실행하기
2.3솔루션코드실행
__2.3.1실행준비
____솔루션코드다운로드
____대회데이터다운로드
____필요한패키지설치
__2.3.2데이터전처리
__2.3.3학습
____배치사이즈(batchsize),워커(worker)개수등의변경
____기본검증방법
____k-폴드교차검증
____5-폴드의각데이터그룹학습시키기
__2.3.4추론
____k-폴드평균앙상블(k-foldaverageensemble)
____2.3.5리더보드에제출
2.4솔루션코드분석
__2.4.1데이터전처리
____데이터프레임으로변환
____피처엔지니어링
____전처리된데이터를저장
____img_feat데이터전처리및저장
__2.4.2학습
____모델아키텍처선정및구현
____모델학습진행
__2.4.3추론
____inference.py

▣03장:2회대회살펴보기
3.1대회설명
__3.1.1브런치의글추천은어떻게이루어지는가?
____유사글추천모델
____개인화맞춤추천모델
____추천할만한글을찾는타깃팅조건
____내가좋아할만한글을찾는랭킹과정
__3.1.2대회내용설명
__3.1.3대회참여현황
3.2대회평가척도
3.3데이터셋훑어보기
__3.3.1데이터셋설명
____사용자가본글정보
____글의메타데이터
____글본문정보
____사용자정보
____매거진정보
____예측할사용자정보
__3.3.2대회데이터탐색
____브런치에등록된글현황
____브런치글의소비데이터현황
____브런치글의등록일이후경과일에따른소비현황
____위클리매거진의주기성
____신규사용자vs.단골사용자
____사용자구독데이터현황
____데이터탐색요약
3.4베이스라인추천모델실행
__3.4.1실행코드가져오기
__3.4.2필요패키지설치하기
__3.4.3학습데이터와평가데이터나누기
__3.4.4베이스라인추천모델로결과생성하기
__3.4.5추천결과채점하기
__3.4.6dev.users사용자결과생성하기
__3.4.7결과제출하기

▣04장:글추천1등솔루션따라하기
4.12회대회의문제이해
__4.1.1문제개요
____과거기록의기간과예측할소비의기간
____예측대상사용자와글
____성능평가와공개리더보드
__4.1.2성능평가지표및수상기준
__4.1.3브런치서비스이해
____방문이유와유입경로
____세션특성
____서비스이용패턴
__4.1.4프로그래밍언어및외부라이브러리
__4.1.5예제코드확인하기
4.22회대회의데이터이해
__4.2.1글조회데이터
____데이터전처리
____데이터분석
__4.2.2글의메타데이터
__4.2.3사용자정보
__4.2.4매거진정보
__4.2.5예측대상사용자정보
4.3추천시스템의기술이해및적용검토
__4.3.1협업필터링의이해
____이웃기반협업필터링
____세션기반협업필터링
__4.3.2협업필터링적용검토
____Word2Vec기반추천
____연속조회통계기반추천
____세션기반협업필터링적용기간
__4.3.3콘텐츠기반필터링의이해
__4.3.4콘텐츠기반필터링적용검토
__4.3.5예외상황대응하기
4.4협업필터링구현
__4.4.1모델생성코드살펴보기
__4.4.2예측코드살펴보기
__4.4.3성능평가
____협업필터링예측결과생성
____협업필터링성능평가
____협업필터링튜닝
4.5콘텐츠기반필터링구현
__4.5.1예측코드살펴보기
__4.5.2Doc2Vec데이터전처리살펴보기
__4.5.3Doc2Vec모델생성코드살펴보기
__4.5.4성능평가
____콘텐츠기반필터링예측결과생성
____콘텐츠기반필터링성능평가
4.6앙상블구현
__4.6.1예측보조함수살펴보기
__4.6.2예측추가함수살펴보기
__4.6.3메인코드예측준비부분살펴보기
__4.6.4메인코드앙상블부분살펴보기
__4.6.5성능평가
4.7최종결과제출하기
__4.7.1깃허브저장소만들기
__4.7.2깃허브저장소에코드및설명올리기