수학으로 풀어보는 강화학습 원리와 알고리즘 (개정판)

수학으로 풀어보는 강화학습 원리와 알고리즘 (개정판)

$30.77
저자

박성수

저자:박성수
서울대학교항공우주공학과에서학사,동대학교대학원에서석사,그리고국비유학으로미국UCBerkeley에서박사학위를받았다.유학가기전에국방과학연구소에서연구원으로일했으며,박사후에는UCBerkeleyITS연구소에서포스트닥연구원으로일했다.현재세종대학교항공우주공학과교수이며,유도항법제어및AIforDynamicsandControl분야를연구하고있다.

◎개인블로그:https://pasus.tistory.com/

목차

▣01장:강화학습수학
1.1확률과랜덤변수
___1.1.1확률
___1.1.2랜덤변수
___1.1.3누적분포함수와확률밀도함수
___1.1.4결합확률함수
___1.1.5조건부확률함수
___1.1.6독립랜덤변수
___1.1.7랜덤변수의함수
___1.1.8베이즈정리
___1.1.9샘플링
1.2기댓값과분산
___1.2.1기댓값
___1.2.2분산
___1.2.3조건부기댓값과분산
1.3랜덤벡터
___1.3.1정의
___1.3.2기댓값과공분산행렬
___1.3.3샘플평균
1.4가우시안분포
1.5랜덤시퀀스
___1.5.1정의
___1.5.2평균함수와자기상관함수
___1.5.3마르코프시퀀스
1.6선형확률차분방정식
1.7표기법
1.8중요샘플링
1.9엔트로피
1.10KL발산
1.11추정기
___1.11.1최대사후추정기
___1.11.2최대빈도추정기
1.12벡터와행렬의미분
___1.12.1벡터로미분
___1.12.2행렬로미분
1.13촐레스키분해
1.14경사하강법
___1.14.1배치경사하강법
___1.14.2확률적경사하강법
1.15경사하강법의개선
___1.15.1모멘텀
___1.15.2RMSprop
___1.15.3아담
1.16손실함수의확률론적해석
___1.16.1가우시안오차분포
___1.16.2베르누이오차분포

▣02장:강화학습개념
2.1강화학습개요
2.2강화학습프로세스와표기법
2.3마르코프결정프로세스
___2.3.1정의
___2.3.2가치함수
___2.3.3벨만방정식
___2.3.4벨만최적방정식
2.4강화학습방법

▣03장:정책그래디언트
3.1배경
3.2목적함수
3.3정책그래디언트
3.4REINFORCE알고리즘

▣04장:A2C
4.1배경
4.2그래디언트의재구성
4.3분산을감소시키기위한방법
4.4A2C알고리즘
4.5A2C알고리즘구현
___4.5.1테스트환경
___4.5.2코드개요
___4.5.3액터클래스
___4.5.4크리틱클래스
___4.5.5에이전트클래스
___4.5.6학습결과
___4.5.7전체코드

▣05장:A3C
5.1배경
5.2그래디언트계산의문제
___5.2.1샘플의상관관계
___5.2.2n-스텝가치추정
5.3비동기액터-크리틱(A3C)알고리즘
5.4그래디언트병렬화방식의A3C알고리즘구현
___5.4.1테스트환경
___5.4.2코드개요
___5.4.3액터클래스
___5.4.4크리틱클래스
___5.4.5에이전트클래스
___5.4.6학습결과
___5.4.7전체코드
5.5데이터병렬화방식의A3C알고리즘구현
___5.5.1코드개요
___5.5.2전체코드

▣06장:PPO
6.1배경
6.2그래디언트의재구성
6.3정책업데이트와성능
6.4PPO알고리즘
6.5어드밴티지추정의일반화(GAE)
6.6PPO알고리즘구현
___6.6.1테스트환경
___6.6.2코드개요
___6.6.3액터클래스
___6.6.4크리틱클래스
___6.6.5에이전트클래스
___6.6.6학습결과
___6.6.7전체코드

▣07장:DDPG
7.1배경240
7.2그래디언트의재구성
7.3DDPG알고리즘
7.4DDPG알고리즘구현
___7.4.1테스트환경
___7.4.2코드개요
___7.4.3액터클래스
___7.4.4크리틱클래스
___7.4.5액터-크리틱에이전트클래스
___7.4.6학습결과
___7.4.7전체코드

▣08장:SAC
8.1배경
8.2소프트벨만방정식
8.3소프트정책개선
8.4SAC알고리즘
8.5SAC알고리즘구현
___8.5.1테스트환경
___8.5.2코드개요
___8.5.3액터클래스
___8.5.4크리틱클래스
___8.5.5에이전트클래스
___8.5.6학습결과
___8.5.7전체코드

▣09장:모델기반강화학습기초
9.1배경
9.2최적제어
___9.2.1LQR
___9.2.2확률적LQR
___9.2.3가우시안LQR
___9.2.4반복적LQR
9.3모델학습방법

▣10장:로컬모델기반강화학습
10.1배경
10.2로컬모델피팅기반LQR
10.3로컬모델피팅
___10.3.1조건부가우시안방법
___10.3.2GMM사전분포를이용한로컬모델업데이트
10.4로컬제어법칙업데이트
___10.4.1대체비용함수계산
___10.4.2KL발산계산
___10.4.3h조정
___10.4.4e조정
10.5가우시안LQR을이용한강화학습알고리즘
10.6가우시안LQR을이용한강화학습알고리즘구현
___10.6.1테스트환경
___10.6.2코드개요
___10.6.3궤적생성
___10.6.4로컬모델피팅
___10.6.5가우시안LQR
___10.6.6가우시안혼합모델
___10.6.7LQR-FLM에이전트클래스
___10.6.8학습결과
___10.6.9전체코드
10.7GPS로의발전

▣참고문헌

출판사 서평

★이책에서다루는내용★

◎강화학습을이해하기위한기본수학:확률론,추정론,최적화,벡터/행렬의미분
◎강화학습알고리즘:A2C,A3C,PPO,DDPG,SAC
◎최적제어알고리즘:반복적LQR,가우시안LQR
◎로컬모델기반강화학습:GMM,모델피팅방법,LQR을이용한강화학습