단단한 강화학습 : 강화학습 기본 개념을 제대로 정리한 인공지능 교과서 - 아이러브 인공지능 27

단단한 강화학습 : 강화학습 기본 개념을 제대로 정리한 인공지능 교과서 - 아이러브 인공지능 27

$39.71
Description
내용을 대폭 보강하여 20년 만에 개정된 강화학습 분야의 절대 바이블!
인공지능 분야에서 가장 활발하게 연구되고 있는 분야 중 하나인 강화학습은 복잡하고 불확실한 환경과 상호작용하는 학습자에게 주어지는 보상을 최대화하는 수치 계산적 학습 방법이다. 리처드 서튼과 앤드류 바르토는 이 책 《단단한 강화학습》을 통해 강화학습의 핵심적인 개념과 알고리즘을 분명하고 이해하기 쉽게 설명한다. 1판이 출간된 이후 새롭게 부각된 주제들을 추가하였고, 이미 다루었던 주제들도 최신 내용으로 업데이트하였다.

저자

리처드서튼,앤드류바르토

저자:리처드서튼
앨버타대학교의컴퓨터과학과교수이자같은대학에서강화학습및인공지능분과의AITF(AlbertaInnovatesTechnologyFuture)의장을맡고있다.또한,딥마인드의우수과학자(DistinguishedResearchScientist)이기도하다.

저자:앤드류바르토
매사추세츠대학교애머스트캠퍼스의컴퓨터및정보과학대학에서명예교수로재직중이다.

역자:김성우
인공위성제어에지도학습을적용한연구로박사학위를받았다.지금은인공위성개발업체에서위성충돌회피및위성영상분석을위한기계학습방법을연구하고있다.

목차

CHAPTER01소개1
1.1강화학습2
1.2예제5
1.3강화학습의구성요소7
1.4한계와범위9
1.5확장된예제:틱택토10
1.6요약16
1.7강화학습의초기역사17
참고문헌27

PARTI표형태의해법
CHAPTER02다중선택31
2.1다중선택문제32
2.2행동가치방법34
2.310중선택테스트35
2.4점증적구현38
2.5비정상문제의흔적40
2.6긍정적초깃값42
2.7신뢰상한행동선택44
2.8경사도다중선택알고리즘46
2.9연관탐색(맥락적다중선택)50
2.10요약51
참고문헌및역사적사실54

CHAPTER03유한마르코프결정과정57
3.1에이전트-환경인터페이스58
3.2목표와보상64
3.3보상과에피소드66
3.4에피소딕작업과연속적인작업을위한통합표기법69
3.5정책과가치함수70
3.6최적정책과최적가치함수76
3.7최적성과근사82
3.8요약83
참고문헌및역사적사실84

CHAPTER04동적프로그래밍89
4.1정책평가(예측)90
4.2정책향상94
4.3정책반복97
4.4가치반복100
4.5비동기동적프로그래밍103
4.6일반화된정책반복104
4.7동적프로그래밍의효율성106
4.8요약107
참고문헌및역사적사실109

CHAPTER05몬테카를로방법111
5.1몬테카를로예측112
5.2몬테카를로행동가치추정118
5.3몬테카를로제어119
5.4시작탐험없는몬테카를로제어123
5.5중요도추출법을통한비활성정책예측126
5.6점증적구현133
5.7비활성몬테카를로제어135
5.8할인을고려한중요도추출법138
5.9결정단계별중요도추출법139
5.10요약141
참고문헌및역사적사실143

CHAPTER06시간차학습145
6.1TD예측146
6.2TD예측방법의좋은점150
6.3TD(0)의최적성153
6.4살사:활성정책TD제어157
6.5Q학습:비활성정책TD제어160
6.6기댓값살사162
6.7최대화편차및이중학습163
6.8게임,이후상태,그밖의특별한경우들166
6.9요약168
참고문헌및역사적사실169

CHAPTER07n단계부트스트랩171
7.1n단계TD예측172
7.2n단계살사177
7.3n단계비활성정책학습179
7.4제어변수가있는결정단계별방법181
7.5중요도추출법을사용하지않는비활성정책학습:n단계트리보강알고리즘184
7.6통합알고리즘:n단계Q(σ)187
7.7요약189
참고문헌및역사적사실190

CHAPTER08표에기반한방법을이용한계획및학습191
8.1모델과계획192
8.2다이나:계획,행동,학습의통합194
8.3모델이틀렸을때199
8.4우선순위가있는일괄처리202
8.5기댓값갱신대표본갱신206
8.6궤적표본추출210
8.7실시간동적프로그래밍213
8.8결정시점에서의계획217
8.9경험적탐색219
8.10주사위던지기알고리즘221
8.11몬테카를로트리탐색223
8.12요약227
8.131부요약:차원228
참고문헌및역사적사실231

PARTII근사적해법
CHAPTER09근사를이용한활성정책예측237
9.1가치함수근사238
9.2예측목적(VE)239
9.3확률론적경사도와준경사도방법241
9.4선형방법246
9.5선형방법을위한특징만들기253
9.6시간간격파라미터를수동으로선택하기268
9.7비선형함수근사:인공신경망269
9.8최소제곱TD275
9.9메모리기반함수근사278
9.10커널기반함수근사280
9.11활성정책학습에대한보다깊은관찰:관심과강조282
9.12요약285
참고문헌및역사적사실286

CHAPTER10근사를적용한활성정책제어293
10.1에피소딕준경사도제어294
10.2준경사도n단계살사297
10.3평균보상:연속적작업을위한새로운문제설정300
10.4할인된설정에대한반대304
10.5미분준경사도n단계살사307
10.6요약308
참고문헌및역사적사실308

CHAPTER11근사를활용한비활성정책방법311
11.1준경사도방법312
11.2비활성정책발산의예제315
11.3치명적인삼위일체320
11.4선형가치함수기하구조322
11.5벨만오차에서의경사도강하327
11.6벨만오차는학습할수없다332
11.7경사도TD방법337
11.8강한TD방법341
11.9분산줄이기343
11.10요약345
참고문헌및역사적사실346

CHAPTER12적격흔적349
12.1λ이득350
12.2TD(λ)355
12.3중단된n단계λ이득방법359
12.4다시갱신하기:온라인λ이득알고리즘361
12.5진정한온라인TD(λ)363
12.6몬테카를로학습에서의더치흔적366
12.7살사(λ)368
12.8가변λ및γ372
12.9제어변수가있는비활성정책흔적374
12.10왓킨스의Q(λ)에서트리보강(λ)로378
12.11흔적을이용한안정적인비활성정책방법381
12.12구현이슈383
12.13결론384
참고문헌및역사적사실386

CHAPTER13정책경사도방법389
13.1정책근사및정책근사의장점390
13.2정책경사도정리393
13.3REINFORCE:몬테카를로정책경사도395
13.4기준값이있는REINFORCE399
13.5행동자-비평자방법401
13.6연속적인문제에대한정책경사도403
13.7연속적행동을위한정책파라미터화406
13.8요약408
참고문헌및역사적사실409

PARTIII더깊이들여다보기
CHAPTER14심리학413
14.1예측과제어414
14.2고전적조건화416
14.3도구적조건화433
14.4지연된강화438
14.5인지지도440
14.6습관적행동과목표지향적행동442
14.7요약447
참고문헌및역사적사실449

CHAPTER15신경과학457
15.1신경과학기본458
15.2보상신호,강화신호,가치,예측오차460
15.3보상예측오차가설463
15.4도파민465
15.5보상예측오차가설에대한실험적근거469
15.6TD오차/도파민유사성473
15.7신경행동자-비평자479
15.8행동자와비평자학습규칙482
15.9쾌락주의뉴런488
15.10집단적강화학습490
15.11뇌에서의모델기반방법494
15.12중독496
15.13요약497
참고문헌및역사적사실501

CHAPTER16적용및사례연구511
16.1TD-가몬511
16.2사무엘의체커선수518
16.3왓슨의이중내기522
16.4메모리제어최적화526
16.5인간수준의비디오게임실력531
16.6바둑게임에통달하다539
16.7개인화된웹서비스550
16.8열상승554

CHAPTER17프론티어559
17.1일반적인가치함수및보조작업559
17.2옵션을통한시간적추상화562
17.3관측과상태565
17.4보상신호의설계572
17.5남아있는이슈들576
17.6인공지능의미래580
참고문헌및역사적사실584

참고문헌588
찾아보기626