Description
캐글, ML/AI 실무자답게 접근하라!
국내 캐글 실력자 8명이 직접 설명하는 캐글 컴페티션,
어떻게 접근해 얼마나 노력하느냐에 따라 경험의 깊이가 달라진다.
국내 캐글 실력자 8명이 모였다. 직접 참가한 대회를 소개하고, 시작부터 제출까지 전 과정을 생생하게 담아 냈다. 자신의 솔루션을 소개하며 자신만의 팁과 노하우를 전하고, 우승팀/고득점팀의 아이디어와 솔루션도 추가로 소개함으로써 하나의 대회에서 가능한 많은, 풍부한 인사이트를 얻을 수 있도록 구성했다. 캐글의 특징과 기능은 물론 철학과 활용법, 캐글러의 마인드를 자세히 알려주는 1장을 시작으로, 이미지 데이터를 사용하는 컴페티션, 정형 데이터를 경험할 수 있는 컴페티션, 캐글의 TPU를 사용해 자연어 처리를 하는 컴페티션, 좋은 캐글 노트북을 작성하기 위한 가이드 등을 살펴보면서 좀더 깊이 있게 캐글을 경험하는 방법에 대해 숙고해 보자.

저자

김태진,권순환,김연민,김현우,명대우,안수빈,이유한,정성훈

저자:김태진
캐글컴페티션엑스퍼트│두들린MLEngineer
뻔한레퍼토리보다는색다른시도와경험을좋아하는개발자.하고싶은것은많지만정작무엇을하고싶은지말하지못했던대학교시절,학업보다는공모전,해커톤같은대외활동을좋아했다.그러던어느날데이터사이언스라는새로운분야를알게되었고,데이터사이언스문제가가득한캐글플랫폼에자연스레빠지게되었다.캐글로부터전세계에서일어나는데이터사이언스챌린지에대한배경지식,문제를풀어나가는방법,경쟁속에서함께성장하는방법을배우게되었고이렇게배운문화와철학을바탕으로현재커뮤니티활동과더불어,강의,멘토링등다양한활동을이어가고있다.
_현)두들린MLEngineer
_전)번개장터DataScientist
_부스트캠프AITech마스터(Level1이미지분류)
_캐글코리아페이스북그룹운영진

저자:권순환
캐글컴페티션엑스퍼트│N社AIResearchEngineer
연세대전기전자공학부를졸업하고,N社에서LargeLanguageModel,Multi-modalfoundationModel개발을수행하고있다.KorQuAD2.0에서처음으로사람보다뛰어난성능을가지는모델을만들어1위를달성하였고,가장큰global검색벤치마크인MicrosoftDocumentRanking1위,폐결절판별대회인LNDb그랜드챌린지1위,NeurIPSWebQAChallenge2위등다양한경진대회수상경력을가지고있다.

저자:김연민
캐글컴페티션마스터│한화정밀기계SeniorResearchEngineer
전자공학을전공하고,반도체장비회사에서AI를적용하기위해노력하고있다.Kaggle에서도메인에관계없이다양한문제를풀어보고있으며많은문제를풀어보는것이AI를공부하기가장좋은방법중한가지로믿고있다.언젠가KaggleGrandMaster가되는것이목표이며제조환경에서어떻게하면AI를잘적용할수있을지관심이많다.

저자:김현우
캐글컴페티션마스터│UpstageAIResearchEngineer
부천에서출생하여한양대학교산업공학과를졸업했다.캐글,데이콘및국내경진대회에서활동경험이있으며현재는업스테이지에서AIResearchEngineer로활동하고있다.

저자:명대우
캐글컴페티션마스터│마인즈앤컴퍼니DataScientist
삼성전자에서영상처리프로그램을개발하는SW개발자로일을시작했다.이후전통적인머신러닝및데이터분석업무를담당하고,힌튼교수의DBN논문이후부터딥러닝을업무에사용했다.캐글을하기전에는머신러닝/딥러닝을할줄아는개발자에가까웠으나,캐글을하면서데이터사이언티스트로커리어를전환했다.업무는주로영상을다루었지만다른분야에도관심이많아음성,Tabular,자연어,강화학습대회를다수참가했다.현재는제조,금융,헬스케어,커머스등여러분야의데이터를다루는B2B기업에서다양한모델을개발하고있다.
_현)마인즈앤컴퍼니파트너데이터사이언티스트리더
_전)삼성디스플레이수석소프트웨어엔지니어
_전)삼성전자책임소프트웨어엔지니어

저자:안수빈
캐글노트북그랜드마스터│HashedDataAnalyst
알고리즘이제시하는정답을넘어,사용자경험이핵심이라고믿는데이터분석가.기술생태계가커뮤니티-드리븐으로발전할것이라는확신하에,페이스북커뮤니티‘캐글코리아’,‘DataVisualizationKR’운영진으로서대회주최,컨퍼런스발표등다양한활동을진행했다.현재는Web3와블록체인에서파생되는다양한데이터에주목하고,그를바탕으로사용자경험에대한리서치와데이터분석을진행하고있다.현재개인블로그(ansubin.com)를운영중이다.

저자:이유한
캐글컴페티션그랜드마스터│KakaoBrainCorp.AIResearcher
카이스트생명화학공학과에서분자시뮬레이션으로물질개발로학위를하던중,인공지능의혁신을보고AI에모든것을걸었다.박사졸업후한국원자력연구원에서선임연구원으로일하며데이터사이언티스트업무를진행했다.이후카카오브레인에입사하여라지스케일모델링업무를수행하고,현재AI사용한신약연구를리딩하고있다.캐글그랜드마스터이며,캐글관련비영리커뮤니티인캐글코리아를운영하고있다.
_현)카카오브레인AI신약연구팀AIresearcher&팀리더
_전)한국원자력연구원지능형컴퓨팅연구실선임연구원

저자:정성훈
캐글컴페티션마스터│KaKaoBankAIResearchEngineer
유년기시절F1드라이버를꿈꿨으나현실의벽에부딪쳐공대에진학했다.2016년에IT관련강좌를수강하며우연히캐글을접하게되었고,겁도없이GPU도없는4GB램노트북으로대회에참전했다.많은대회에즐겁게참가하다보니7년이라는시간이흘렀고,GPU가있다는그자체에감사하던순수한대학생은어느덧RTX3090이20장이있어도만족을모르는GPU탐욕꾼이되어있다.졸업후에는통신사에서머신러닝/딥러닝모델링을개발하는역할을했으며,현재는카카오뱅크기술연구소에서안면인증모델을고도화하는연구를하고있다.

목차


1장Kaggle
__1.1컴페티션
____1.1.1컴페티션파악
____1.1.2컴페티션선택
____1.1.3컴페티션종료
__1.2초보캐글러를위한컴페티션시작팁
____1.2.1컴페티션이어려운이유
____1.2.2컴페티션시작
____1.2.3컴페티션점수에대한생각
__1.3코드
____1.3.1노트북
____1.3.2클라우드노트북
____1.3.3SaveVersion
____1.3.4공유
__1.4데이터셋
____1.4.1캐글데이터셋
____1.4.2데이터셋생성
____1.4.3데이터셋활용
____1.4.4공유
__1.5디스커션
____1.5.1디스커션종류와역할
____1.5.2Thanksforsharing!
__1.6More
____1.6.1ProgressionSystem
____1.6.2Learn
__1.7이제캐글의세계로

2장InstantGratification
__2.1들어가기전에
____2.1.1캐글프로필:김연민
____2.1.2코드
__2.2Overview
____2.2.1대회목적
____2.2.2평가지표
____2.2.3데이터소개
__2.3솔루션소개
____2.3.1Overview
____2.3.2EDA
____2.3.3스태킹
____2.3.4솔루션상세
____2.3.5제출전략
__2.4디스커션

3장IEEE-CISFraudDetection
__3.1들어가기전에
____3.1.1캐글프로필:김현우
____3.1.2캐글프로필:정성훈
____3.1.3코드
__3.2Overview
____3.2.1대회목적
____3.2.2평가지표
____3.2.3데이터소개
__3.3솔루션소개
____3.3.1Overview
____3.3.2EDA
____3.3.3피처엔지니어링
____3.3.4모델링
__3.4다른솔루션소개
____3.4.1Overview
____3.4.2EDA
____3.4.3피처엔지니어링
____3.4.4피처선택
____3.4.5모델링
__3.5디스커션

4장Quick,Draw!DoodleRecognition
__4.1들어가기전에
____4.1.1캐글프로필:명대우
____4.1.2코드
__4.2Overview
____4.2.1대회목적
____4.2.2평가지표
__4.3솔루션
____4.3.1EDA
____4.3.2데이터전처리
____4.3.3데이터생성
____4.3.4모델링
____4.3.5앙상블
__4.4다른솔루션소개
__4.5디스커션

5장Bengali.AIHandwrittenGraphemeClassification
__5.1들어가기전에
____5.1.1캐글프로필:이유한
____5.1.2코드
__5.2Overview
____5.2.1대회목적
____5.2.2평가지표
____5.2.3데이터소개
__5.3솔루션소개
____5.3.1검증전략설정
____5.3.2학습전전처리
____5.3.3데이터셋만들기
____5.3.4학습
____5.3.5데이터증강
____5.3.6수도레이블링
____5.3.7앙상블
__5.4다른솔루션소개
____5.4.11등솔루션
____5.4.22등솔루션
__5.5디스커션
____5.5.1Tips
____5.5.2후기

6장SIIM-ACRPneumothoraxSegmentation
__6.1들어가기전에
____6.1.1캐글프로필:권순환
____6.1.2코드
__6.2Overview
____6.2.1대회목적
____6.2.2평가지표
____6.2.3데이터소개
__6.3솔루션소개
____6.3.1ObjectDetection,Instance/SemanticSegmentation
____6.3.2U-Net
____6.3.3하이퍼컬럼
____6.3.4fast.ai프레임워크
____6.3.5손실함수정의
____6.3.6CyclicLearningRates
____6.3.7데이터증강
____6.3.8경량화의중요성
____6.3.9전체정리
__6.4다른솔루션소개
____6.4.1Model
____6.4.2FastPrototyping(Uptrain)
____6.4.3Comboloss
____6.4.4세개의임곗값활용
__6.5디스커션

7장JigsawUnintendedBiasinToxicityClassification
__7.1들어가기전에
____7.1.1캐글프로필:김태진
____7.1.2코드
__7.2Overview
____7.2.1대회목적
____7.2.2평가지표
____7.2.3데이터소개
__7.3EDA
__7.4솔루션소개(텐서플로,TPU)
____7.4.1전처리
____7.4.2모델
____7.4.3토큰화
____7.4.4TPU
____7.4.5TFRecord
____7.4.6학습withTPU
____7.4.7서브미션노트북만들기
____7.4.8결과제출
__7.5솔루션소개(Ours)
__7.6솔루션소개(2ndPrize)
__7.7디스커션

8장캐글노트북작성을위한팁
__8.1들어가기전에
____8.1.1캐글프로필:안수빈
____8.1.2코드
____8.1.38장에대하여
__8.2각타입별노트북과작성팁
____8.2.1EDA
____8.2.2전처리
____8.2.3파이프라인
____8.2.4고득점노트북
____8.2.5튜토리얼
____8.2.6MyFirstNotebook
__8.3좋은노트북을위한가이드라인
____8.3.1시각화
____8.3.2재사용성
____8.3.3가독성
____8.3.4SEO
____8.3.5홍보
____8.3.6출처
__8.4맺음말

찾아보기

출판사 서평

캐글입문방법,캐글활용법,기본테크닉,고급테크닉,방법론,고득점노하우,선배들의조언등
이책에담긴모든것을습득하고활용해보세요!

캐글을처음시작하거나,캐글을알고있지만어떻게활용해야할지잘모르거나,몇번해봤지만잘되지않았던캐글러분들이캐글에조금더가까워지도록도움을드리는것이목표입니다.

1장:Kaggle
1장에서는캐글이무엇이고,어떤구성요소와기능이있는지,이요소들의특징과활용방법은무엇인지자세히소개합니다.처음이책을볼때는1장을꼭한번훑은뒤에컴페티션솔루션장을볼것을권장합니다.1장은캐글에서제공하는대부분의기능과활용방법을소개하므로,이책에서소개하는솔루션을이해하는데는물론앞으로본격적으로캐글을활용할때도움이될것입니다.

2~7장:솔루션장
1장이후솔루션장에서는저자들이직접참가했던캐글컴페티션에대해소개합니다.컴페티션의목적과배경을소개하고,주어진데이터의특징과함께문제를풀어나가는과정에대해저자의경험을토대로설명합니다.여기에저자가컴페티션에참가하면서느꼈던점,추가로알았으면하는팁,인상깊게보았던다른캐글러의솔루션등도포함합니다.

솔루션장은총6개로이루어져있으며,순서에상관없이원하는장을골라볼수있습니다.솔루션장은컴페티션을간단히요약한표로시작하여,컴페티션을소개하는Overview절이뒤를따릅니다.이둘을참고하면관심가는문제및데이터를다루는장을빠르게파악할수있습니다.

각컴페티션솔루션은컴페티션진행과정을파이썬코드와함께설명합니다.파이썬코드에서는주로컴페티션데이터와딥러닝,머신러닝모델을다루기때문에파이썬프로그래밍언어와다음라이브러리에대한사전지식이필요합니다.
__머신러닝프레임워크:파이토치(PyTorch),텐서플로(Tensorflow),사이킷런(Scikit-learn)
__데이터셋라이브러리:판다스(Pandas),넘파이(Numpy)
__시각화라이브러리:맷플롯립(Matplotlib),시본(Seaborn),플롯나인(Plotnine)

8장:캐글노트북을위한팁
마지막으로8장은부록성격으로,캐글노트북을작성하는데필요한간단한팁을정리했습니다.주로어떤유형의노트북이공유되는지소개하고,각유형별특징에대해알아봅니다.또한,좋은노트북을쓰기위해서는무엇이필요한지간단한가이드라인도제공합니다.

[베타테스트평]

2018년부터캐글코리아커뮤니티를운영하고,수많은스터디를진행하면서항상어려웠던건스터디원이나커뮤니티멤버들에게캐글컴페티션프로세스를이해시키고체화시키는부분이었습니다.이책은초반부에초보캐글러를위한입문가이드를제공하여좋았습니다.뿐만아니라캐글플랫폼에서제공하는각기능들을상세하게설명하고사용예시를스크린샷으로확인할수있어실제캐글을입문하려는분들께도움이많이될것입니다.
강천성/컨택스츠아이오/5년차머신러닝엔지니어

캐글에서잔뼈가굵은여러캐글러들이본인의노하우를아낌없이,밤을새웠을예제를들어공유해주고있습니다.수많은기법들이어디에어떻게사용되는지,어떤고민을했는지당시의기쁨과괴로움을모두나눠준책입니다.현업이바빠서,가정을돌봐야해서,캐글컴페티션에뛰어들지못하는분들도캐글의효용을체감할수있을것입니다.
이제현/한국에너지기술연구원/데이터사이언티스트

머신러닝의기본개념을배운후캐글처럼실전문제에적용하고싶은사람에게좋은노하우를제시해주는책입니다.특히캐글플랫폼에대한자세한설명과tabular,computervision,medicalimage,NLP등다양한도메인에서사용하는기본방식을알수있으며,기본적인EDA부터앙상블까지따라하며실제현업에서적용할수있는경험을제시해줍니다.또한,다양한프레임워크와다른상위권팀의노하우도같이공유하여한문제에대한다양한접근법과새로운인사이트를얻을수있는점이도움이되었습니다.다양한방면에서딥러닝의기술을익히고싶은사람에게추천하며,관심분야로파고들수있는참고서가되리라생각합니다.
박찬민/VUNO/2년차데이터사이언티스트

어떠한분야에서든입문자가실력을빠르고효과적으로상승시킬수있는강력한방법이있습니다.(1)대가들의결과물을반복해서소비하고연구하면서(2)그결과물을만들당시대가들의생각과느낌을재현,흉내내보고(3)이반복과정을통해대가들의기술과감각을나만의방식으로해석,습득하는것입니다.캐글은위와같은트레이닝을하기에최적화된플랫폼이고,이책은다양한사례와시행착오를담고있습니다.즉,데이터분석입문자가효과적으로실력을향상시킬최적의플랫폼과방법의조합을소개하는책입니다.
김보찬/AOLabs/4년차백엔드개발자

각대회마다초기데이터분석(EDA)부터토론과해결과정까지,실제캐글대회에참여하는경험을간접적으로느낄수있었습니다.특히실제대회에참가하면서겪게될고민과해결방법을미리경험하고,캐글대회에대한접근방법을구체적으로알수있었다는점에서큰도움이되었습니다.이책의실질적인가이드라인과실전노하우는캐글입문자나향후캐글에도전하려는이들에게매우유용할것입니다.
유승완/대학생

코드가효율적으로구현되어코드를직관적으로이해하기쉬웠고,평소생각하지못한접근방식을배울수있었습니다.평소캐글에진입장벽을느낀초심자부터순위권을목표로했지만등수를올리기어려웠던캐글러에게이책을추천합니다.
김지은/고려대학교산업경영공학과석사졸업/데이터직무준비중

캐글을이용하여데이터과학에입문하는사람부터중수(중급)이상을노리는사람까지,실력편차없이각자얻어갈부분이많은책이라느꼈습니다.데이터과학을공부하는초보자에게는캐글플랫폼내부의디테일한부분까지설명해주어나침반역할을해줍니다.또한,캐글노트북을어떻게작성하고어느부분을강조하는것이좋은지,다른사람에게본인이직접분석한내용을표현과논리적으로설명할수있는실력을길러줍니다.
정호영/프리랜서/5년차데이터사이언티스트

캐글노트북의디스크제한량등디테일한사용법을알려주어실전에서사용하는데도움이되었습니다.또한,평소에관심이많았던이슈인고용량데이터를분할압축하여데이터제너레이터로나눠서입력데이터로사용할수있는방법을알수있어서좋았습니다.그리고저자들의솔루션말고도다른상위권의솔루션,아이디어를얻었던솔루션도같이소개하였기에다양한방식을고찰할수있었습니다.특히IEEE-CISFraudDetection1위솔루션에서적대적유효성검사의특성을이용해서검사가주로쓰이는방식이아닌다른방식으로활용하는인사이트가인상적이었습니다.
한원배/동국대학교/AI개발자취업준비중

실습도다양하고실습관련해설도잘돼있어서초보개발자가캐글에도전하기전에꼭읽어봐야할책입니다.데이터나그래프를보면어떻게해석해야하나고민될때가많았는데책에해설이잘돼있어서‘이런지표가이런걸알려주는구나!’라는걸배우고,데이터와그래프를보는방법등에친숙해진것같습니다.
신기훈/취업준비생/개발자취업준비중

1장내용이캐글에대한표면적인소개에그치는것이아니라,캐글을통해어떻게성장할수있는지를알려주는느낌이라좋았습니다.솔루션또한굉장히자세하게서술되어있어(초심자라면한번에이해하기어려울수도있지만)많은인사이트를얻어갈수있습니다.머신러닝이론을공부할때,‘그래서이걸어떻게써먹는거지?왜이런방법이필요한거지?’라는의문이든경험이다들있을텐데,이책은머신러닝으로풀려는문제가먼저주어지고그문제를어떻게접근했는지디테일한방식을엿볼수있기에공부하는데큰도움이될것입니다.
백승윤/코르카/3년차머신러닝엔지니어