단단한 심층강화학습 : 심층강화학습 기본 개념을 제대로 정리한 인공지능 교과서

단단한 심층강화학습 : 심층강화학습 기본 개념을 제대로 정리한 인공지능 교과서

$32.16
Description
심층강화학습의 확고한 기반을 다지기 위한 완벽한 방법!
지금 당장 활용할 수 있는 심층강화학습의 이론 및 실무를 소개합니다.
이 책은 이론과 실무적 내용을 독특하게 결합한 심층강화학습 소개서입니다. 직관적인 설명에서 시작하여 심층강화학습 알고리즘에 대한 자세한 설명과 SLM Lab 라이브러리를 이용한 구현 방법으로 이어지고, 마지막으로는 심층강화학습을 실무에 적용하기 위한 세부 내용을 다룹니다.
기본적인 기계학습 개념에 대한 이해와 파이썬을 다룰 줄 아는 컴퓨터과학 전공 학생 및 소프트웨어 엔지니어 모두에게 최선의 선택이 될 것입니다.

주요 내용
□ 심층강화학습 문제의 모든 핵심 내용을 다룹니다.
□ REINFORCE, 사르사(SARSA), DQN, 이중DQN, 우선순위가 있는 경험재현(PER)과 같은 정책-기반 알고리즘과 가치-기반 알고리즘에 대해 알아봅니다.
□ 행동자-비평자(Actor-Critic)와 근위 정책 최적화(PPO)와 같은 결합된 알고리즘에 대해 심도 있게 알아봅니다.
□ 알고리즘이 동기 및 비동기 방식으로 병렬화되는 과정을 이해합니다.
□ SLM Lab에서 알고리즘을 실행해 보고, 심층강화학습을 실무에 적용하기 위한 세부사항들을 학습합니다.
□ 튜닝된 하이퍼파라미터를 사용한 결과를 통해 알고리즘을 탐험합니다.
□ 심층강화학습 환경의 설계 방법을 이해합니다.

저자

로라그레서,와룬켕

저자:로라그레서
에서로보틱스를연구하는연구자이자소프트웨어엔지니어다.뉴욕대학교에서컴퓨터과학전공으로석사학위를받았으며,기계학습을전문적으로연구했다.

저자:와룬켕
신존(MachineZone)에서산업현장의문제해결을위해심층강화학습을적용하는인공지능엔지니어로일하고있다.이론물리학과컴퓨터과학을전공했다.

역자:김성우
세대학교천문우주학과에서인공위성자세/궤도제어에지도학습을적용한연구로박사학위를받았고,쎄트렉아이에서인공위성지상시스템엔지니어로근무했다.새로운모험을위해트리마란에서인공위성분야기획/연구에참여했다.현재는한화시스템에서인공위성시스템엔지니어로서더큰모험을즐기고있다.

목차

옮긴이머리말xii
베타리더후기xiii
추천사xv
시작하며xvi
감사의글xxi

CHAPTER01강화학습소개1
1.1강화학습1
1.2MDP로서의강화학습7
1.3강화학습에서학습하는함수11
1.4심층강화학습알고리즘13
1.4.1정책기반알고리즘14
1.4.2가치기반알고리즘15
1.4.3모델기반알고리즘16
1.4.4결합된방법17
1.4.5이책에서다루는알고리즘18
1.4.6활성정책과비활성정책알고리즘19
1.4.7요약19
1.5강화학습을위한심층학습20
1.6강화학습과지도학습22
1.6.1오라클의부재23
1.6.2피드백의희소성24
1.6.3데이터생성24
1.7요약25

PARTI정책기반알고리즘과가치기반알고리즘
CHAPTER02REINFORCE29
2.1정책30
2.2목적함수31
2.3정책경사31
2.3.1정책경사계산33
2.4몬테카를로표본추출36
2.5REINFORCE알고리즘37
2.5.1향상된REINFORCE38
2.6REINFORCE구현39
2.6.1최소형태의REINFORCE구현39
2.6.2파이토치로정책생성하기42
2.6.3행동추출44
2.6.4정책손실계산45
2.6.5REINFORCE훈련루프46
2.6.6활성정책재현메모리47
2.7REINFORCE에이전트의훈련50
2.8실험결과53
2.8.1실험:할인율??의효과53
2.8.2실험:기준값의효과55
2.9요약57
2.10더읽을거리57
2.11역사58

CHAPTER03살사(SARSA)59
3.1Q함수와V함수60
3.2시간차학습63
3.2.1시간차학습에대한직관66
3.3살사의행동선택73
3.3.1탐험과활용74
3.4살사알고리즘75
3.4.1활성정책알고리즘76
3.5살사의적용77
3.5.1행동함수:엡실론탐욕적77
3.5.2Q손실의계산78
3.5.3살사훈련루프80
3.5.4활성정책배치재현메모리81
3.6살사에이전트의훈련83
3.7실험결과86
3.7.1실험:학습률의효과86
3.8요약87
3.9더읽을거리88
3.10역사89

CHAPTER04심층Q네트워크(DQN)91
4.1DQN의Q함수학습92
4.2DQN의행동선택94
4.2.1볼츠만정책97
4.3경험재현100
4.4DQN알고리즘101
4.5DQN의적용103
4.5.1Q손실의계산103
4.5.2DQN훈련루프104
4.5.3재현메모리105
4.6DQN에이전트의훈련108
4.7실험결과111
4.7.1실험:신경망아키텍처의효과111
4.8요약113
4.9더읽을거리114
4.10역사114

CHAPTER05향상된DQN115
5.1목표네트워크116
5.2이중DQN119
5.3우선순위가있는경험재현(PER)123
5.3.1중요도표본추출125
5.4수정된DQN의구현126
5.4.1네트워크초기화127
5.4.2Q손실의계산128
5.4.3목표네트워크의업데이트129
5.4.4목표네트워크를갖는DQN130
5.4.5이중DQN130
5.4.6우선순위가있는경험재현131
5.5아타리게임을위한DQN에이전트의훈련137
5.6실험결과142
5.6.1실험:이중DQN과PER의효과142
5.7요약146
5.8더읽을거리146

PARTII결합된방법
CHAPTER06어드밴티지행동자-비평자(A2C)149
6.1행동자150
6.2비평자150
6.2.1어드밴티지함수151
6.2.2어드밴티지함수에대한학습155
6.3A2C알고리즘156
6.4A2C의구현159
6.4.1어드밴티지추정160
6.4.2가치손실과정책손실의계산162
6.4.3행동자-비평자훈련루프163
6.5네트워크아키텍처164
6.6A2C에이전트의훈련166
6.6.1n단계이득을이용한A2C를퐁게임에적용166
6.6.2GAE를이용한A2C를퐁게임에적용169
6.6.3두발보행자문제에서n단계이득을이용한A2C170
6.7실험결과173
6.7.1실험:n단계이득의효과173
6.7.2실험:GAE의??가미치는효과175
6.8요약176
6.9더읽을거리177
6.10역사177

CHAPTER07근위정책최적화(PPO)179
7.1대리목적180
7.1.1성능붕괴180
7.1.2목적함수의수정182
7.2근위정책최적화(PPO)189
7.3PPO알고리즘193
7.4PPO의구현195
7.4.1PPO정책손실의계산195
7.4.2PPO훈련루프196
7.5PPO에이전트의훈련198
7.5.1퐁게임을위한PPO198
7.5.2두발보행자를위한PPO201
7.6실험결과203
7.6.1실험:GAE의??가미치는효과204
7.6.2실험:클리핑변수??의효과205
7.7요약207
7.8더읽을거리208

CHAPTER병렬화방법209
8.1동기병렬화210
8.2비동기병렬화212
8.2.1호그와일드!213
8.3A3C에이전트의훈련216
8.4요약219
8.5더읽을거리219

CHAPTER09알고리즘요약221

PARTIII실전을위한세부사항
CHAPTER10심층강화학습으로작업하기225
10.1소프트웨어공학적기법226
10.1.1단위테스트226
10.1.2코드품질232
10.1.3깃워크플로233
10.2디버깅팁236
10.2.1생존신호236
10.2.2정책경사에대한진단237
10.2.3데이터에대한진단238
10.2.4전처리기239
10.2.5메모리239
10.2.6알고리즘함수240
10.2.7신경망240
10.2.8알고리즘간소화243
10.2.9문제간소화243
10.2.10하이퍼파라미터244
10.2.11Lab워크플로244
10.3아타리트릭245
10.4심층강화학습알마낵249
10.4.1하이퍼파라미터표249
10.4.2알고리즘성능비교252
10.5요약255

CHAPTER11SLMLab257
11.1SLMLab에구현된알고리즘257
11.2spec파일260
11.2.1검색스펙구문262
11.3SLMLab의실행265
11.3.1SLMLab의명령어265
11.4실험결과의분석266
11.4.1실험데이터의개요266
11.5요약268

CHAPTER12네트워크아키텍처269
12.1신경망의유형269
12.1.1다층퍼셉트론(MLP)270
12.1.2합성곱신경망(CNN)272
12.1.3회귀신경망(RNN)274
12.2네트워크그룹선택을위한가이드275
12.2.1MDP와POMDP275
12.2.2환경을위한네트워크선정279
12.3NetAPI282
12.3.1입력과출력층위모양의추정284
12.3.2네트워크의자동생성286
12.3.3훈련단계289
12.3.4기반메소드의노출290
12.4요약291
12.5더읽을거리292

CHAPTER13하드웨어293
13.1컴퓨터294
13.2데이터유형300
13.3강화학습에서데이터유형최적화302
13.4하드웨어의선택307
13.5요약308

CHAPTER14상태311
14.1상태의예제312
14.2상태의완결성319
14.3상태의복잡성320
14.4상태정보손실325
14.4.1이미지그레이스케일링325
14.4.2이산화326
14.4.3해시출동327
14.4.4메타정보손실327
14.5전처리331
14.5.1표준화332
14.5.2이미지처리333
14.5.3시간적전처리335
14.6요약339

CHAPTER15행동341
15.1행동의예제341
15.2행동의완결성345
15.3행동의복잡성347
15.4요약352
15.5더읽을거리:일상에서의행동설계353

CHAPTER16보상357
16.1보상의역할357
16.2보상설계의가이드라인359
16.3요약364

CHAPTER17전이함수365
17.1실현가능성확인366
17.2현실성확인368
17.3요약371

APPENDIXA심층강화학습타임라인372
APPENDIXB환경의예제374
B.1이산적환경375
B.1.1CartPole-v0375
B.1.2MountainCar-v0376
B.1.3LunarLander-v2377
B.1.4PongNoFrameskip-v4378
B.1.5BreakoutNoFrameskip-v4378
B.2연속환경379
B.2.1Pendulum-v0379
B.2.2BipedalWalker-v2380

에필로그381

출판사 서평

주요내용

심층강화학습문제의모든핵심내용을다룹니다.
REINFORCE,사르사(SARSA),DQN,이중DQN,우선순위가있는경험재현(PER)과같은정책-기반알고리즘과가치-기반알고리즘에대해알아봅니다.
행동자-비평자(Actor-Critic)와근위정책최적화(PPO)와같은결합된알고리즘에대해심도있게알아봅니다.
알고리즘이동기및비동기방식으로병렬화되는과정을이해합니다.
SLMLab에서알고리즘을실행해보고,심층강화학습을실무에적용하기위한세부사항들을학습합니다.
튜닝된하이퍼파라미터를사용한결과를통해알고리즘을탐험합니다.
심층강화학습환경의설계방법을이해합니다.