데이터가 뛰어노는 AI 놀이터, 캐글 (상위 랭킹 진입을 위한 필살기)

데이터가 뛰어노는 AI 놀이터, 캐글 (상위 랭킹 진입을 위한 필살기)

$35.00
Description
데이터 분석 무한 경쟁 ‘캐글’에서 살아남기 위한 비결
세계 최대 규모 데이터 분석 경진 대회 플랫폼인 캐글에서는 일반적이지 않은 데이터 처리 기법이 많이 활용된다. 이를 이해하고 체득하여 활용하는 것은 대회뿐만 아니라 데이터 분석 실무에서도 모델 정확도를 높이는 데 매우 유용하다. 특징(feature)을 만드는 방법, 앙상블, 평가지표, 사이킷런, xgboost 등 기존에는 잘 다루지 않았던 기법과 사례를 이 책 한 권에 정리했다. 경진 대회에 참여할 계획이 있거나, 캐글을 경험해봤지만 더 높은 상위 랭킹에 도전하고 싶다면 지금 바로 읽어보기를 권한다.
저자

가도와키다이스케

KaggleCompetitionsMaster.교토대학졸업후생명보험회사에서보험계리사로10년간상품개발과리스크관리업무에종사했습니다.캐글과의만남을계기로경력을내던지고캐글및데이터관련프로그램에참여중입니다.캐글WalmartRecruitingII:SalesinStormyWeather대회에서우승했으며캐글CouponPurchasePrediction대회에서3위입상했습니다.

목차

CHAPTER1경진대회
1.1경진대회란?
1.2경진대회플랫폼
1.3경진대회참가부터종료까지
1.4경진대회의참가의미
1.5상위권진입의중요팁

CHAPTER2경진대회의평가지표
2.1경진대회의종류
2.2경진대회의데이터셋
2.3평가지표
2.4평가지표와목적함수
2.5평가지표의최적화
2.6평가지표최적화사례
2.7데이터정보누출

CHAPTER3특징생성
3.1이장의구성
3.2모델과특징
3.3결측값처리
3.4수치형변수변환
3.5범주형변수변환
3.6날짜및시간변수변환
3.7변수의조합
3.8다른정형데이터와의결합
3.9집약하여통계량구하기
3.10시계열데이터처리
3.11차원축소와비지도학습의특징
3.12기타기법
3.13경진대회의특징사례

CHAPTER4모델구축
4.1모델의기본이해
4.2경진대회에서사용하는모델
4.3GBDT
4.4신경망
4.5선형모델
4.6기타모델
4.7모델의기타팁과테크닉

CHAPTER5모델평가
5.1모델평가란?
5.2검증방법
5.3시계열데이터의검증방법
5.4검증포인트와기술

CHAPTER6모델튜닝
6.1매개변수튜닝
6.2특징선택과중요도
6.3편중된클래스분포의대응

CHAPTER7앙상블기법
7.1앙상블이란?
7.2간단한앙상블기법
7.3스태킹
7.4앙상블대상모델의선택기준
7.5경진대회의앙상블사례

출판사 서평

캐글상위랭킹진입에필요한필살기를한권에정리했다!

상당수의데이터과학자가자신의실력을검증하고자‘캐글’에도전합니다.대회에서는실제데이터를이용하기때문에일반적이지않은데이터처리방법과기법이많이활용됩니다.그러한내용을이해하고스스로활용할수있는능력을갖추는것은경진대회는물론이고실무에서도모델을구현하는데많은도움이됩니다.

최대한많은기술과사례를한권에담기위해노력했습니다.정형데이터를다루는대회를대상으로하여문제설정이명확하게주어진가운데성능이높은모델을만들려면어떻게해야하고무엇을주의해야할지에초점을맞추었습니다.특히특징을생성하는방법,검증,파라미터튜닝등다른도서에서는잘다루지않는노하우나포인트도설명합니다.처음부터전부이해하려하기보다는우선빠르게읽으면서관심있는부분만집중적으로읽는것을권합니다.또는대회도중에힌트가필요할때살짝보거나헷갈리는부분을사전적으로참조하여읽어도좋습니다.

캐글에도전하고싶지만어떻게해야할지막막하거나,매번같은방법만사용하여다른방법도알고싶거나,더높은순위권에진입하는것이목표라면꼭읽어야하는책입니다.경진대회에서쓰이는기술은실무에도유용하므로대회에흥미가없어도읽으면도움이될것입니다.

주요내용
● 정밀도가높은모델구축하기
● 데이터에서특징추출하기
● 변수를변환해특징생성하기
● 평가지표를이용해예측결과최적화하기
● 하이퍼파라미터튜닝
● 여러모델을조합해예측하는앙상블기법과스태킹(stacking)
● 시계열데이터종류와취급방법

[추천사]
머신러닝기초를공부하고캐글에이제막발을내딛는사람과캐글경험이있지만대회코드작성에어려움을느낀사람에게훌륭한길잡이역할을해줍니다.상위권에랭크된노트북의솔루션을꼼꼼하게리뷰해준덕분에여러대회에다양한기법으로접근해볼수있습니다.
_신홍재,학생

캐글에처음도전할때가장어려운점은자신이수행할수있는스킬과대회에서필요한스킬의단계차이가크게나는것이라고생각합니다.이책은머신러닝기초부터다양한대회에서기법이실제로적용되는부분까지세세하게알려주기때문에많은데이터를직접만지며스킬의단계차이를줄일수있습니다.
_이창우,학생