데이터 과학 레벨 업 with 로드맵 : 캐글 그랜드마스터가 알려주는 문제 해결의 기술

데이터 과학 레벨 업 with 로드맵 : 캐글 그랜드마스터가 알려주는 문제 해결의 기술

$38.00
Description
데이터 과학자여,
그랜드마스터로 올라서는 비법이 여기에 있다.
실력 향상에 가장 좋은 방법은 실습! 데이터 과학 플랫폼 캐글에서는 다양한 대회에 참가하고 데이터 세트와 노트북, 토론을 주고받으며 ‘실습을 통한 학습’ 경험을 쌓을 수 있습니다. 캐글 그랜드마스터인 콘라트 바나헤비치와 루카 마사론이 데이터 과학 대회와 프로젝트에서 성공하는 데 필요한 기술과 비법을 하나로 모았습니다. 다양한 경험을 통해 쌓인 모델링 전략과 각종 지식을 토대로 데이터 과학자로 성장하는 방법을 여러분에게 전수합니다.
그랜드마스터와 마스터 등급에 오른 캐글러 31명의 솔직한 인터뷰도 담았습니다. 이들이 가감 없이 공유하는 초창기에 저지른 실수와 깨달은 교훈을 통해 데이터 과학 세계에서 살아남는 데 필요한 인사이트를 얻어보세요. 그랜드마스터가 대회나 프로젝트를 시작할 때 사용하는 접근법과 서로 협력하는 법, 도구까지 여러분 것으로 만드세요. 길목 곳곳에 숨겨진 보물을 찾다보면 어느새 데이터 과학에 자신감이 붙은 여러분을 발견할 수 있을 겁니다.

저자

콘라트바나헤비치,루카마사론

암스테르담자유대학교에서통계학박사학위를받았다.신용리스크의극단적종속성모델링의문제를연구했으며튜터로서석사과정학생들을지도하기도했다.박사과정을마친후몇년동안여러금융기관에서일하며다양한양적인데이터분석문제를다뤘다.이과정을통해데이터제품수명주기의전문가가되었고,금융분야에서극과극에있는고빈도거래와신용리스크등의주제를연구했다.

목차

PARTI캐글사용법

CHAPTER1캐글과데이터과학대회
_1.1데이터과학대회플랫폼의부상
__1.1.1캐글대회플랫폼
__1.1.2다른대회플랫폼
_1.2캐글소개
__1.2.1대회의스테이지
__1.2.2대회의유형과예시
__1.2.3제출과리더보드역학
__1.2.4컴퓨팅리소스
__1.2.5팀구성과네트워킹
__1.2.6성과등급과순위
__1.2.7비판과기회
_1.3요약
인터뷰|01-코드를공유하고토론하는커뮤니티,캐글
인터뷰|02-프레임워크의중요성

CHAPTER2캐글데이터세트
_2.1데이터세트준비하기
_2.2데이터수집
_2.3데이터세트로작업하기
_2.4구글코랩에서캐글데이터세트사용하기
_2.5법적주의사항
_2.6요약
인터뷰|03-좋은데이터세트를만드는법

CHAPTER3캐글노트북
_3.1노트북설정하기
_3.2노트북실행하기
_3.3노트북깃허브에저장하기
_3.4노트북최대로활용하기
__3.4.1구글클라우드플랫폼(GCP)으로업그레이드하기
__3.4.2한걸음더나아가기
_3.5캐글학습코스
_3.6요약
인터뷰|04-경험과실수는성장하는원동력
인터뷰|05-캐글입문자를위한접근법

CHAPTER4토론포럼
_4.1포럼이운영되는방식
_4.2토론접근법
_4.3네티켓
_4.4요약
인터뷰|06-기술에서벗어나맥락에서정보를찾아라

PARTII대회를위한테크닉

CHAPTER5대회과제와지표
_5.1평가지표와목적함수
_5.2과제의기본유형
__5.2.1회귀
__5.2.2분류
__5.2.3서수
_5.3메타캐글데이터세트
_5.4처음보는지표처리
_5.5회귀를위한지표(표준과서수)
__5.5.1평균제곱오차(MSE)와결정계수
__5.5.2평균제곱근오차(RMSE)
__5.5.3평균제곱근로그오차(RMSLE)
__5.5.4평균절대오차(MAE)
_5.6분류를위한지표(레이블예측과확률)
__5.6.1정확도
__5.6.2정밀도와재현율
__5.6.3F1점수
__5.6.4로그손실과ROC-AUC
__5.6.5매튜스상관계수(MCC)
_5.7다중분류를위한지표
_5.8객체탐지를위한지표
__5.8.1IoU
__5.8.2다이스
_5.9다중레이블분류와추천을위한지표
__5.9.1MAP@{K}
_5.10평가지표최적화
__5.10.1사용자정의지표와사용자정의목표함수
__5.10.2예측후처리
_5.11요약
인터뷰|07-전분야그랜드마스터의문제접근법
인터뷰|08-장기적인목표를잡아라
인터뷰|09-핵심은꾸준함

CHAPTER6좋은검증설계법
_6.1리더보드분석
_6.2대회에서검증의중요성
__6.2.1편향과분산
_6.3다양한분할전략시도
__6.3.1기본훈련세트분할
__6.3.2확률적평가방법
_6.4모델검증시스템조정
_6.5적대적검증사용
__6.5.1구현예시
__6.5.2훈련데이터와테스트데이터의분포차이처리
_6.6누수처리
_6.7요약
인터뷰|10-모든것을검증하라
인터뷰|11-여러아이디어로만드는좋은검증
인터뷰|12-캐글은마라톤이다

CHAPTER7태뷸러데이터대회를위한모델링
_7.1플레이그라운드시리즈
_7.2재현성을위한랜덤상태설정
_7.3EDA의중요성
__7.3.1t-SNE과UMAP으로차원축소하기
_7.4데이터사이즈축소하기
_7.5특징공학적용하기
__7.5.1쉽게파생된특징
__7.5.2행과열에기반한메타특징
__7.5.3목표인코딩
__7.5.4특징의중요도활용해서작업평가하기
_7.6의사레이블링
_7.7오토인코더로잡음제거하기
_7.8태뷸러데이터대회를위한신경망
_7.9요약
인터뷰|13-게임처럼접근하라
인터뷰|14-데이터과학도과학이다

CHAPTER8하이퍼파라미터최적화
_8.1기본최적화기법
__8.1.1그리드탐색
__8.1.2랜덤탐색
__8.1.3분할탐색
_8.2핵심파라미터와사용방법
__8.2.1선형모델
__8.2.2서포트벡터머신
__8.2.3랜덤포레스트와극단적랜덤트리
__8.2.4그레이디언트트리부스팅
_8.3베이지언최적화
__8.3.1scikit-optimize사용하기
__8.3.2베이지언최적화탐색커스터마이징하기
__8.3.3베이지언최적화를신경망구조탐색(NAS)으로확장하기
__8.3.4KerasTunner로더가볍고빠른모델생성하기
__8.3.5Optuna의TPE접근
_8.4요약
인터뷰|15-배우는게있다면실패가아니다
인터뷰|16-문제와데이터부터이해하라
인터뷰|17-도전하는용기

CHAPTER9블렌딩과스태킹설루션을사용한앙상블
_9.1앙상블알고리듬
_9.2모델평균화로앙상블하기
__9.2.1다수결투표알고리듬
__9.2.2모델예측의평균화
__9.2.3가중평균
__9.2.4교차검증전략의평균화
__9.2.5ROC-AUC평가를위한평균수정
_9.3메타모델을사용한모델블렌딩
__9.3.1모델블렌딩의모범사례
_9.4모델스태킹
__9.4.1스태킹변형
_9.5복잡한스태킹과블렌딩설루션만들기
_9.6요약
인터뷰|18-데이터를이해하면프로젝트가시작된다
인터뷰|19-새로운영역에겁내지말것

CHAPTER10컴퓨터비전모델링
_10.1증강전략
__10.1.1케라스내장증강
__10.1.2Albumentations
_10.2분류
_10.3객체탐지
_10.4시맨틱분할
_10.5요약
인터뷰|20-배우고즐겨라
인터뷰|21-모든대회는퍼즐을해결하는모험

CHAPTER11NLP모델링
_11.1감정분석
_11.2오픈도메인Q&A
_11.3텍스트데이터증강전략
__11.3.1기본테크닉
__11.3.2nlpaug
_11.4요약
인터뷰|22-스스로의아이디어로시작하라
인터뷰|23-신문사데이터과학자가텍스트를다루는법

CHAPTER12시뮬레이션과최적화대회
_12.1ConnectX
_12.2가위바위보
_12.3산타대회2020
_12.4Halite
_12.5요약
인터뷰|24-성장을돕는캐글

PARTIII데이터과학경력관리

CHAPTER13포트폴리오준비
_13.1캐글로포트폴리오구축하기
__13.1.1노트북과토론활용하기
_13.2캐글을넘어온라인에존재감드러내기
__13.2.1블로그
__13.2.2깃허브
_13.3대회최신소식과뉴스레터모니터링하기
_13.4요약
인터뷰|25-대회에서얻은새로운기회
인터뷰|26-칭찬은캐글러를춤추게한다

CHAPTER14새로운기회를찾는법
_14.1대회에참여한다른데이터과학자와관계구축하기
_14.2캐글데이와캐글밋업에참가하기
_14.3주목받는방법과다른직업기회들
__14.3.1STAR접근법
_14.4요약
인터뷰|27-단기적인피드백으로개선하는장기연구
인터뷰|28-비전공자의데이터과학도전기
인터뷰|29-16세에그랜드마스터가된이야기
인터뷰|30-캐글이만든커리어
인터뷰|31-대회의목적은우승이아닌배움
마무리

출판사 서평

캐글그랜드마스터가안내하는데이터과학의세계

캐글은직접연구하며데이터과학능력을키우는플랫폼입니다.흔히알려진대회뿐아니라데이터세트와노트북,토론포럼등다양한서비스를사용해여러분의능력을발휘할수있습니다.이책은캐글을통해데이터과학대회에참가하는방법과대회를통해이름을외부에이름을알릴기회를최대한활용하는방법을소개합니다.데이터과학대회만이아니라실무에서도사용하는다양한분석기법을소개하며,앞으로어떤문제를만나도당황하지않도록유용한팁을담았습니다.이렇게단련한실력을선보이고새로운기회를찾는방법까지정리해여러분앞에가이드를제시합니다.여기에31명의캐글러와나눈인터뷰를담아그들이그랜드마스터와마스터에오르기까지어떤길을걸어왔는지,데이터과학에임하는데무엇이중요한지다양한조언을전달합니다.이제막데이터과학을시작했다면,앞으로더나아가는데영감이필요하다면이책이도움이될겁니다.핵심전문지식을익혀데이터과학에서자신만의여정을시작하세요.

대상독자

-실전에서사용하는데이터과학테크닉을경험하고싶은개발자
-머신러닝/데이터과학공부를시작하고다음단계를고민중인학습자
-데이터과학분야에서진로를고민하는예비개발자

주요내용

-데이터과학대회와프로젝트를시작하는방법
-데이터과학플랫폼을활용해역량을키우고경력을쌓는방법
-다양한형식의데이터를분석하는비기
-다른참가자와소통하며해법을찾는방법
-자기능력을어필하는포트폴리오를만드는방법