데싸노트의 실전에서 통하는 머신러닝 - Must Have

데싸노트의 실전에서 통하는 머신러닝 - Must Have

$34.36
Description
★ 실전은 피처 엔지니어링이다
★ 뉴욕의 데이터 사이언티스트가 알려주는
★ 머신러닝 문제풀이 해법을 익혀라
이 책은 실무와 캐글 챌린지에도 통하는 10가지 각 알고리즘을 엄선해 머신러닝을 알려줍니다. 콜롬비아 대학교 대학원생 튜터로, 패스트캠퍼스 데이터분석 강사와 스터디 리더로 활동한 저자는 데이터 분석을 바탕으로 한 코딩에 집중할 때 학습 능률이 더 오르는 것을 발견했습니다. 그래서 각 알고리즘을 ‘기초 지식 ? 데이터 분석 ? 전처리 ? 모델링 평가 ? 알고리즘 깊이 이해하기’ 순서로 격파해나갑니다. 무엇보다 더 나은 성과를 얻는 핵심 기술인 데이터를 분석하고 처리하는 피처 엔지니어링에 공을 들였습니다. 이 책을 읽고 나면 독자 스스로가 데이터에 알맞은 문제풀이 해법을 고안할 수 있게 될 겁니다.

* 이 책은 객체지향 개념이 있는 프로그래밍 언어를 적어도 하나를 익힌 분을 대상으로 합니다. 파이썬은 1장에서 알려주므로 몰라도 됩니다.

저자

권시현(데싸노트)

저자:권시현(데싸노트)
삼성전자무선사업부에서는스마트폰에서수집된데이터를이용해인사이트도출및데이터기반의사결정에기여했고,현재는미국에서해외송금서비스앱관련된데이터를주로다룹니다.사기탐지,고객이탈예측등을위한모델링작업을수행했습니다.‘데싸노트’유튜브채널을운영하며머신러닝과미국취업에대한이야기를공유합니다.
_현)IDTCorporation데이터사이언티스트
_전)콜롬비아대학교머신러닝튜터_전)삼성전자무선사업부앱스토어데이터분석가
저역서
_《MustHave데싸노트의실전에서통하는머신러닝》저

목차

00장실습환경안내(코랩)

1단계:배경지식익히기

01장한눈에살펴보는머신러닝
__1.1인공지능,머신러닝,딥러닝
__1.2머신러닝기법:지도학습,비지도학습,강화학습
__1.3머신러닝프로세스
__1.4TOP10알고리즘의성능비교
__1.5머신러닝핵심라이브러리
__1.6데이터시각화그래프종류
__1.7피처엔지니어링기법
__1.8변수란무엇인가?
학습마무리

02장파이썬기초익히기
__2.1프로그래밍기본:산술연산,변수,출력
__2.2자료형과자료구조
__2.3반복문:for문,while문
__2.4조건문:if문
__2.5파이썬내장함수
__2.6나만의함수만들기:def
학습마무리

03장유용한라이브러리:판다스와넘파이
__3.1판다스
__3.2넘파이
학습마무리

2단계:답을알려줘야학습하는머신러닝지도학습알고리즘

04장선형회귀:보험료예측하기
__4.1문제정의:한눈에보는예측목표
__4.2라이브러리및데이터불러오기
__4.3데이터확인하기
__4.4전처리:학습셋과시험셋나누기
__4.5모델링
__4.6모델을활용해예측하기
__4.7예측모델평가하기
__4.8이해하기:선형회귀
학습마무리
연습문제

05장로지스틱회귀:타이타닉생존자예측하기
__5.1문제정의:한눈에보는예측목표
__5.2라이브러리및데이터불러오기
__5.3데이터확인하기
__5.4전처리:범주형변수변환하기(더미변수와원-핫인코딩)
__5.5모델링및예측하기
__5.6예측모델평가하기
__5.7이해하기:피처엔지니어링
__5.8이해하기:로지스틱회귀
학습마무리
연습문제

06장K-최근접이웃(KNN):와인등급예측하기
__6.1문제정의:한눈에보는예측목표
__6.2라이브러리및데이터불러오기
__6.3데이터확인하기
__6.4목푯값에서고윳값확인하기
__6.5전처리:결측치처리하기
__6.6스케일링
__6.7모델링및예측/평가하기
__6.8하이퍼파라미터튜닝하기
__6.9이해하기:K-최근접이웃
학습마무리
연습문제

07장나이브베이즈:스팸여부판단하기
__7.1문제정의:한눈에보는예측목표
__7.2라이브러리및데이터불러오기&데이터확인
__7.3전처리:특수기호제거하기
__7.4전처리:불용어제거하기
__7.5전처리:목표컬럼형태변경하기
__7.6전처리:카운트기반으로벡터화하기
__7.7모델링및예측/평가하기
__7.8이해하기:나이브베이즈모델
학습마무리
연습문제

08장결정트리:연봉예측하기
__8.1문제정의:한눈에보는예측목표
__8.2라이브러리및데이터불러오기,데이터확인하기
__8.3전처리:범주형데이터
__8.4전처리:결측치처리및더미변수변환
__8.5모델링및평가하기
__8.6이해하기:결정트리
__8.7오버피팅문제
__8.8매개변수튜닝
__8.9트리그래프
학습마무리
연습문제

09장랜덤포레스트:중고차가격예측하기
__9.1문제정의:한눈에보는예측목표
__9.2라이브러리및데이터불러오기,데이터확인하기
__9.3전처리:텍스트데이터
__9.4전처리:결측치처리와더미변수변환
__9.5모델링및평가하기
__9.6이해하기:K-폴드교차검증
__9.7이해하기:랜덤포레스트
__9.8하이퍼파라미터튜닝
학습마무리
연습문제

10장XGBoost:커플성사여부예측하기
__10.1문제정의:한눈에보는예측목표
__10.2라이브러리및데이터불러오기,데이터확인하기
__10.3전처리:결측치처리
__10.4전처리:피처엔지니어링
__10.5모델링및평가
__10.6이해하기:경사하강법
__10.7하이퍼파라미터튜닝:그리드서치
__10.8중요변수확인
__10.9이해하기:XGBoost
학습마무리
연습문제

11장LightGBM:이상거래예측하기
__11.1문제정의:한눈에보는예측목표
__11.2라이브러리및데이터불러오기,데이터확인하기
__11.3전처리:데이터클리닝
__11.4전처리:피처엔지니어링
__11.5모델링및평가하기
__11.6하이퍼파라미터튜닝:랜덤그리드서치
__11.7LightGBM의train()함수사용하기
__11.8이해하기:LightGBM
학습마무리
연습문제

3단계:답을스스로찾는비지도학습알고리즘

12장K-평균군집화:비슷한속성끼리분류하기
__12.1문제정의:한눈에보는예측목표
__12.2K-평균군집화맛보기:인위적으로만든데이터셋
__12.3데이터불러오기및데이터확인하기:고객데이터셋
__12.4전처리:피처엔지니어링
__12.5고객데이터모델링및실루엣계수
__12.6최종예측모델및결과해석
__12.7이해하기:K-평균군집화
학습마무리
연습문제

13장주성분분석(PCA):차원축소응용하기
__13.1차원을축소해서그래프그리기:고객데이터셋
__13.2속도와예측력을향상시키기:익명데이터셋
__13.3이해하기:주성분분석
학습마무리
연습문제

출판사 서평

★뉴욕의데이터사이언티스트데싸노트가전하는
★이책으로머신러닝을익혀야하는이유

이책은기존책과큰차이가있습니다.상세한이론설명을코딩을마친후로미루고,일단머신러닝코드를작성합니다.그저코드를따라치는게아니라어떤관점에서문제를풀어나가야하는지설명을보태실무에도적용할수있게했습니다.이렇게손으로결과물을만들어보고나서이론을깊게살펴봅니다.전체과정을다시금머리에상기시키고,핵심개념과용어를복습합니다.

이런식으로TOP10알고리즘을모두학습하고나면,머신러닝알고리즘에대한이해뿐만아니라,파이썬코딩에대한기초지식도자연스럽게갖출수있습니다.무엇보다큰장점은,결과물을바로확인하고본인이무엇을하고있는지직관적으로알수있기때문에,의욕을고취시킨다는데있습니다.

★현업과캐글에서머신러닝을활용하려면
★얼마나많은머신러닝알고리즘을알아야하는걸까요?
시작점으로TOP10알고리즘이면충분합니다.알고리즘은달라도머신러닝실행순서는학습→예측→평가로진행됩니다.이부분은거의정형화되어있어성능에큰영향을미치지않습니다.쓰레기가들어가면쓰레기가나온다고합니다.머신러닝에딱맞는말입니다.좋은데이터가좋은머신러닝모델을만듭니다.그래서이책은TOP10알고리즘을공략하면서무엇보다데이터분석과가공에공을들입니다.데이터에어떤가공기법이필요한지하나하나분석하며클리닝,피처엔지니어링,차원축소등의기법을사용할겁니다.이렇게데이터분석능력을기르며알고리즘을익히면현업과캐글에서도통하는실력을갖추게됩니다.

★타깃독자
__적어도객체지향프로그래밍언어하나를아는머신러닝입문자
__머신러닝을협업/캐글에서더잘활용하고싶은데이터사이언티스트와개발자

★톱10알고리즘의선정기준
이책은10가지머신러닝알고리즘을다룹니다.어떤알고리즘은성능면에서매우뛰어나서,어떤알고리즘은꼭이해할필요가있어서선택했습니다.8가지알고리즘은지도학습,나머지2가지알고리즘은비지도학습에포함됩니다.정형데이터라면,이10가지알고리즘만으로현업과캐글컴피티션에서충분히좋은성과를낼수있습니다.

▽머신러닝TOP알고리즘
__1.선형회귀(LinearRegression)
__2.로지스틱회귀(LogisticRegression)
__3.K-최근접이웃(KNN)
__4.나이브베이즈(NaiveBayes)
__5.결정트리(DecisionTree)
__6.랜덤포레스트(RandomForest)
__7.XG부스트(XGBoost)
__8.라이트GBM(LightGBM)
__9.K-평균군집화(KMeansClustering)
__10.주성분분석(PCA)

★이책의구성
이책은학습흐름을끊지않기위해개발환경(코랩)부터설명한후,다음과같이총3단계에걸쳐머신러닝알고리즘을공략해나갑니다

[1단계:배경지식익히기]
머신러닝을본격적으로다루기전에알아야하는기초지식을다룹니다.1장에서는머신러닝알고리즘,그래프,라이브러리를일목요연하게소개합니다.머신러닝입문자가큰그림을파악하는데도움이될겁니다.이어서프로그래밍에사용할파이썬기본지식(2장),데이터분석에사용할데이터구조인판다스와넘파이(3장)도다룹니다.

[2단계:답을알려줘야학습하는지도학습알고리즘]
지도학습과관련된8가지알고리즘을알아봅니다.지도학습은학습데이터에답(종속변수)이포함되어있습니다.그답을잘예측할수있도록모델을훈련시키는방법을문제해결관점에서알아보겠습니다.가장기초알고리즘인선형회귀부터캐글컴피티션및실무에서도유용한최신기법인XGBoost와LightGBM까지폭넓게다룹니다.

[3단계:답을스스로찾는비지도학습알고리즘]
비지도학습알고리즘두개를다룹니다.비지도학습은답이주어져있지않다보니,학습결과가좋은지나쁜지평가할만한답안또한가지고있지않아서목적이모호할수있습니다.그래서다양한시도를할때활용될수있습니다.지도학습과달리비지도학습에서압도적으로많이사용되는알고리즘이한정적입니다.그래서가장유명한두알고리즘만다룹니다.