머신러닝 엔지니어링 (데이터 수집부터 특징 공학, 모델 평가, 배포, 유지보수까지 | 2022 우수학술도서)

머신러닝 엔지니어링 (데이터 수집부터 특징 공학, 모델 평가, 배포, 유지보수까지 | 2022 우수학술도서)

$30.00
Description
데이터 수집부터 특징 공학, 모델 평가, 배포, 유지보수까지
머신러닝 설루션 구축 모범 사례와 설계 패턴이 가득한 책!
11개 언어로 출판된 베스트셀러 《The Hundred-Page Machine Learning Book》의 저자 안드리 부르코프가 쓴 이 책은 현존하는 인공지능 서적 중 가장 완벽합니다. 확장할 수 있으며 신뢰할 수 있는 머신러닝 설루션을 구축하는 모범 사례와 설계 패턴으로 가득 차 있습니다. 가트너의 머신러닝 개발팀의 리더이기도 한 저자는 15년간 인공지능 관련 문제를 해결한 경험과 함께 업계 리더들의 출판 경험을 바탕으로 이 책을 집필하였습니다.
이 책의 대상 독자
? 머신러닝 엔지니어링을 공부하는 학생, 데이터 분석가
? 머신러닝 엔지니어 역할에 관심이 많은 데이터 분석가
? 자신의 업무 영역을 좀 더 다양한 분야로 넓히려는 머신러닝 엔지니어
? 머신러닝 엔지니어가 제공하는 모델을 다루는 소프트웨어 아키텍트
저자

안드리부르코프

AndriyBurkov
두아이의아빠이자머신러닝전문가로캐나다퀘벡에거주하고있다.인공지능전공으로박사학위를받았고,지난10여년간가트너에서머신러닝개발팀을이끌고있다.자연어처리를전문분야로하면서얕은학습과심층학습을통해프로덕션용최첨단다국어텍스트추출및정규화시스템구축작업을하고있다.또다른저서로서세계11개국에수출된《TheHundred-PageMachineLearningBook》(2019)이있다.

목차

추천사xii
옮긴이머리말xv
머리말xvii
베타리더후기xix

CHAPTER01도입1
1.1표기법및정의2
1.1.1자료구조2/1.1.2대문자시그마표기법3
1.2머신러닝이란?4
1.2.1지도학습4/1.2.2비지도학습6
1.2.3준지도학습7/1.2.4강화학습7
1.3데이터와머신러닝용어8
1.3.1직접적/간접적으로사용하는데이터8/1.3.2원시데이터와깔끔한데이터9
1.3.3훈련및홀드아웃세트10/1.3.4기준점11
1.3.5머신러닝파이프라인11/1.3.6매개변수와초매개변수12
1.3.7분류와회귀12/1.3.8모델기반학습과인스턴스기반학습13
1.3.9얕은학습과딥러닝13/1.3.10훈련과채점14
1.4머신러닝을사용해야할때14
1.4.1문제가너무복잡해서코딩으로해결할수없을때14
1.4.2문제가지속적으로변할때15
1.4.3지각문제일때15
1.4.4연구되지않은현상일때16
1.4.5문제의목적이단순할때16
1.4.6비용효율적인경우17
1.5머신러닝을사용하지말아야할때17
1.6머신러닝엔지니어링이란?18
1.7머신러닝프로젝트수명주기19
1.8요약21

CHAPTER02프로젝트시작전23
2.1머신러닝프로젝트의우선순위결정24
2.1.1머신러닝의영향24/2.1.2머신러닝의비용24
2.2머신러닝프로젝트의복잡도추정26
2.2.1미리알수없는것26/2.2.2문제단순화27
2.2.3비선형적훈련진행27
2.3머신러닝프로젝트의목표정의28
2.3.1모델이할수있는작업28/2.3.2성공적인모델의속성29
2.4머신러닝팀구성30
2.4.1두가지개발문화30/2.4.2머신러닝팀의구성원31
2.5머신러닝프로젝트가실패하는이유32
2.5.1숙련된개발자부족32/2.5.2경영진의지원부족33
2.5.3데이터인프라부족34/2.5.4데이터레이블링의어려움34
2.5.5고립된조직과협업부족35/2.5.6기술적으로실행불가능한프로젝트35
2.5.7기술팀과비즈니스팀간의소통부족35
2.6요약36

CHAPTER03데이터수집및준비39
3.1데이터에대한질문40
3.1.1데이터를구할수있는가?40/3.1.2데이터세트의크기가충분히큰가?41
3.1.3데이터를사용할수있나?43/3.1.4데이터를이해할수있나?45
3.1.5데이터를신뢰할수있나?45
3.2일반적인데이터관련문제47
3.2.1높은비용47/3.2.2품질불량49/3.2.3잡음49/3.2.4편향50
3.2.5낮은예측력57/3.2.6오래된견본58/3.2.7특잇값59/3.2.8데이터누출60
3.3좋은데이터란?61
3.3.1좋은데이터는유익함61
3.3.2좋은데이터는넓은적용범위를가짐61
3.3.3좋은데이터는실제입력을반영함61
3.3.4좋은데이터는편향되지않음62
3.3.5좋은데이터는피드백루프의결과가아님62
3.3.6좋은데이터의레이블은일관됨62
3.3.7좋은데이터는충분히큼63
3.3.8좋은데이터요약63
3.4상호작용데이터처리64
3.5데이터누출의원인64
3.5.1목표가특징의함수인경우65/3.5.2목표가특징에숨어있는경우65
3.5.3미래를반영하는특징66
3.6데이터분할67
3.6.1분할중누출69
3.7결측속성처리70
3.7.1결측값대체기술70/3.7.2대체중누출72
3.8데이터증강72
3.8.1이미지데이터증강73/3.8.2텍스트데이터증강74
3.9불균형데이터처리76
3.9.1오버샘플링77/3.9.2언더샘플링77
3.9.3하이브리드전략78
3.10데이터샘플링전략79
3.10.1단순랜덤샘플링79/3.10.2체계적인샘플링80
3.10.3계층화된샘플링80
3.11데이터저장81
3.11.1데이터형식82/3.11.2데이터저장소레벨83
3.11.3데이터버전관리85/3.11.4문서화와메타데이터87
3.11.5데이터수명주기88
3.12데이터처리모범사례88
3.12.1재현성88/3.12.2데이터우선,알고리즘은그다음89
3.13요약89

CHAPTER04특징공학93
4.1특징공학을사용하는이유94
4.2특징공학을사용하는방법95
4.2.1텍스트에대한특징공학95/4.2.2단어가방의작동원리98
4.2.3범주형특징을숫자로변환98/4.2.4특징해싱101
4.2.5주제모델링102/4.2.6시계열특징105/4.2.7창의력활용108
4.3특징쌓기108
4.3.1특징벡터쌓기109/4.3.2개별특징쌓기109
4.4좋은특징의특성111
4.4.1높은예측력111/4.4.2빠른계산능력111/4.4.3신뢰성111
4.4.4비상관성112/4.4.5기타특성112
4.5특징선택113
4.5.1긴꼬리자르기113/4.5.2보루타114
4.5.3L1-정규화117/4.5.4과제별특징선택117
4.6특징합성117
4.6.1특징이산화118/4.6.2관계형데이터에서특징합성119
4.6.3데이터로부터특징합성121/4.6.4다른특징으로부터특징합성121
4.7데이터를통한특징학습122
4.7.1단어임베딩122/4.7.2문서임베딩124
4.7.3모든객체에대한임베딩125/4.7.4임베딩차원선택126
4.8차원축소127
4.8.1PCA를통한빠른차원축소127/4.8.2시각화를위한차원축소128
4.9특징스케일링128
4.9.1정규화129/4.9.2표준화130
4.10특징공학에서데이터누출131
4.10.1잠재적인문제131/4.10.2설루션131
4.11특징저장과문서화131
4.11.1스키마파일131/4.11.2특징저장소133
4.12특징공학모범사례135
4.12.1여러가지간단한특징생성135/4.12.2기존시스템재사용136
4.12.3필요한경우에만식별자를특징으로사용136/4.12.4가능하면크기를줄인다136
4.12.5계수사용은신중하게137/4.12.6특징은필요할때선택138
4.12.7코드테스트는주의깊게138/4.12.8코드,모델,데이터의동기화상태유지139
4.12.9특징추출코드분리139/4.12.10모델과특징추출기를함께직렬화139
4.12.11특징값기록139
4.13요약140

CHAPTER05지도모델훈련(1부)143
5.1모델개발을시작하기전에144
5.1.1스키마적합성검증144/5.1.2달성가능한성능수준정의144
5.1.3성능지표선택145/5.1.4올바른기준선선택145
5.1.5데이터를세개의세트로분할148/5.1.6지도학습의전제조건149
5.2머신러닝을위한레이블표현150
5.2.1다중클래스분류150/5.2.2다중레이블분류151
5.3학습알고리즘선택151
5.3.1학습알고리즘의주요특성152/5.3.2알고리즘스팟검사153
5.4파이프라인구축154
5.5모델성능평가156
5.5.1회귀분석의성능지표156/5.5.2분류의성능지표157
5.5.3순위를위한성능지표163
5.6초매개변수조정167
5.6.1그리드검색167/5.6.2랜덤검색169
5.6.3무작위-미세한검색170/5.6.4기타기술170
5.6.5교차검증170
5.7얕은모델훈련171
5.7.1얕은모델훈련전략171/5.7.2모델저장및복원172
5.8편향-분산간절충174
5.8.1과소적합174/5.8.2과적합175/5.8.3절충176
5.9정규화177
5.9.1L1및L2정규화178/5.9.2다른형태의정규화179
5.10요약179

CHAPTER06지도모델훈련(2부)183
6.1심층모델훈련전략183
6.1.1신경망훈련전략184/6.1.2성능지표및비용함수185
6.1.3매개변수초기화전략188/6.1.4최적화알고리즘189
6.1.5학습률감소스케줄192/6.1.6정규화194
6.1.7네트워크크기검색및초매개변수조정195/6.1.8다중입력처리198
6.1.9다중출력처리198/6.1.10전이학습199
6.2모델쌓기201
6.2.1앙상블학습유형201/6.2.2모델쌓기알고리즘202
6.2.3모델을쌓을때데이터누출203
6.3분포이동처리204
6.3.1분포이동유형204/6.3.2적대적검증204
6.4불균형데이터세트처리205
6.4.1클래스가중치205/6.4.2다시샘플링한데이터세트앙상블206
6.4.3기타기술207
6.5모델교정207
6.5.1잘교정된모델208/6.5.2교정기술209
6.6문제해결및오류분석210
6.6.1모델의성능이떨어지는이유210/6.6.2반복적모델개선211
6.6.3오류분석211/6.6.4복잡한시스템의오류분석213
6.6.5부분지표사용215/6.6.6잘못된레이블수정215
6.6.7추가로레이블링할견본찾기216/6.6.8딥러닝문제해결216
6.7모범사례218
6.7.1좋은모델제공218/6.7.2검증된오픈소스활용219
6.7.3비즈니스별성능측정최적화219/6.7.4밑바닥부터개선219
6.7.5연속적인정정방지220/6.7.6연속된모델은주의해서사용220
6.7.7효율적인코드작성,컴파일,병렬화221
6.7.8최신데이터와이전데이터에대한테스트223
6.7.9똑똑한알고리즘보다더많은데이터가좋음223
6.7.10새로운데이터가좀더좋은특징보다뛰어남224
6.7.11작은진전의수용224
6.7.12용이한재현성224
6.8요약225

CHAPTER07모델평가229
7.1오프라인평가와온라인평가231
7.2A/B테스트233
7.2.1G-테스트233/7.2.2Z-테스트236
7.2.3결론및주의사항238
7.3멀티암드밴딧239
7.4모델성능에대한통계적한계242
7.4.1분류오류에대한통계구간243/7.4