밑바닥부터 시작하는 딥러닝 4 : 파이썬으로 직접 구현하며 배우는 강화 학습 알고리즘

밑바닥부터 시작하는 딥러닝 4 : 파이썬으로 직접 구현하며 배우는 강화 학습 알고리즘

$28.38
저자

사이토고키

저자:사이토고키(齋藤康毅)

1984년나가사키현쓰시마출생.도쿄공업대학공학부를졸업하고도쿄대학대학원학제정보학부석사과정을수료했다.현재는기업에서인공지능관련연구·개발에매진하고있다.오라일리재팬에서『밑바닥부터시작하는딥러닝』시리즈를집필했으며『파이썬인프랙티스』,『밑바닥부터만드는컴퓨팅시스템』,『BuildingMachineLearningSystemswithPython』등을일본어로옮겼다.



역자:개앞맵시

고려대학교컴퓨터학과를졸업하고삼성전자에서자바가상머신,바다플랫폼,챗온메신저서비스등을개발했다.주업무외에분산빌드,지속적통합,수명주기관리도구,애자일도입등동료개발자들에게실질적인도움을주는일에적극적이었다.그후창업전선에뛰어들어좌충우돌하다가개발자커뮤니티에기여하는더나은방법을찾아출판시장에뛰어들었다.

『밑바닥부터시작하는딥러닝』시리즈,『구글엔지니어는이렇게일한다』,『리팩터링2판』,『이펙티브자바3판』등을번역했다.

개발자들과의소통창구로소소하게facebook.com/dev.loadmap페이지를운영중이다.

목차


CHAPTER1밴디트문제
_1.1머신러닝분류와강화학습
_1.2밴디트문제
_1.3밴디트알고리즘
_1.4밴디트알고리즘구현
_1.5비정상문제
_1.6정리

CHAPTER2마르코프결정과정
_2.1마르코프결정과정(MDP)이란?
_2.2환경과에이전트를수식으로
_2.3MDP의목표
_2.4MDP예제
_2.5정리

CHAPTER3벨만방정식
_3.1벨만방정식도출
_3.2벨만방정식의예
_3.3행동가치함수(Q함수)와벨만방정식
_3.4벨만최적방정식
_3.5벨만최적방정식의예
_3.6정리

CHAPTER4동적프로그래밍
_4.1동적프로그래밍과정책평가
_4.2더큰문제를향해
_4.3정책반복법
_4.4정책반복법구현
_4.5가치반복법
_4.6정리

CHAPTER5몬테카를로법
_5.1몬테카를로법기초
_5.2몬테카를로법으로정책평가하기
_5.3몬테카를로법구현
_5.4몬테카를로법으로정책제어하기
_5.5오프-정책과중요도샘플링
_5.6정리

CHAPTER6TD법
_6.1TD법으로정책평가하기
_6.2SARSA
_6.3오프-정책SARSA
_6.4Q러닝
_6.5분포모델과샘플모델
_6.6정리

CHAPTER7신경망과Q러닝
_7.1DeZero기초
_7.2선형회귀
_7.3신경망
_7.4Q러닝과신경망
_7.5정리

CHAPTER8DQN
_8.1OpenAIGym
_8.2DQN의핵심기술
_8.3DQN과아타리
_8.4DQN확장
_8.5정리

CHAPTER9정책경사법
_9.1가장간단한정책경사법
_9.2REINFORCE
_9.3베이스라인
_9.4행위자-비평자
_9.5정책기반기법의장점
_9.6정리

CHAPTER10한걸음더
_10.1심층강화학습알고리즘분류
_10.2정책경사법계열의고급알고리즘
_10.3DQN계열의고급알고리즘
_10.4사례연구
_10.5심층강화학습이풀어야할숙제와가능성
_10.6정리

APPENDIXA오프-정책몬테카를로법
A.1오프-정책몬테카를로법이론
A.2오프-정책몬테카를로법구현

APPENDIXBn단계TD법

APPENDIXCDoubleDQN이해하기
C.1DQN에서의과대적합이란?
C.2과대적합해결방법

APPENDIXD정책경사법증명
D.1정책경사법도출
D.2베이스라인도출

출판사 서평

강화학습마스터의지름길은기초를다지는것!

딥러닝은매우핫한분야여서하루가멀다하고새로운알고리즘과응용사례가발표되고있습니다.엄청난발전속도에따라관련기술과서비스도빠르게진화해서,이전에는유행이었던것들이지금은사라지기도합니다.하지만한편으로는변하지않고전해져내려오는것도있죠.이책에서는배우는지식이바로그변하지않는것입니다.강화학습의기초를이루는아이디어와기술은예나지금이나변함이없습니다.최신알고리즘도오래전부터존재해온아이디어를토대로합니다.강화학습의기본원리,마르코프결정과정,벨만방정식,Q러닝,신경망등과같은주제는앞으로도변함없이중요하게여겨질것입니다.따라서현재의강화학습,나아가심층강화학습까지이해하려면강화학습의기초부터차근차근학습하는것이오히려지름길입니다.파이썬과수학에대한기초만있다면읽을수있도록수식기호하나하나,코드한줄한줄친절히설명합니다.이책으로강화학습의기초를제대로배우고‘변하지않는것’의아름다움을맛보기바랍니다.여러분곁에포스가함께하기를…

대상독자

-강화학습의원리를제대로배우고자하는독자
-딥러닝을더깊게이해하고싶은개발자
-파이썬지식이있으며딥러닝과강화학습에흥미가있는데이터과학입문자

주요내용

-여러후보가운데가장좋은것을순차적으로찾는'밴디트문제'풀어보기(1장)
-일반적인강화학습문제를‘마르코프결정과정’으로정의하기(2장)
-마르코프결정과정에서최적의답을찾는데핵심이되는‘벨만방정식’도출하기(3장)
-벨만방정식을풀기위한방법:동적프로그래밍(4장),몬테카를로법(5장),TD법(6장)
-딥러닝에대해알아보고딥러닝을강화학습알고리즘에적용하기(7장)
-DQN을구현하고DQN을확장한방법알아보기(8장)
-DQN과는다른접근법:‘정책경사법’알고리즘(9장)
-A3C/DDPG/TRPO/레인보우알고리즘과심층강화학습(10장)