수학으로 풀어보는 강화학습 원리와 알고리즘 (개정판)

수학으로 풀어보는 강화학습 원리와 알고리즘 (개정판)

$30.77
Description
코딩하면서 알고리즘이 유도된 과정이 궁금하다면 이 책을 선택하기 바랍니다!
이 책은 딥러닝이나 강화학습 예제를 코딩하면서 그 배경 알고리즘의 유도 과정을 궁금해하는 사람을 위한 책이다. 술술 읽히는 책은 아니지만, 그렇다고 심하게 어려운 책도 아니다. 수학의 선수 지식으로 대학 2학년 때 배우는 공업수학을 이수한 정도면 충분하고, 딥러닝의 선수 지식으로는 텐서플로 또는 파이토치를 사용하여 MNIST와 같은 간단한 딥러닝 예제를 따라해 본 정도면 충분하다.

이 책은 강화학습뿐만 아니라 다른 머신러닝과 딥러닝의 기초가 되는 확률이론과 추정론에 대한 기본적인 이해를 바탕으로 강화학습의 여러 알고리즘을 처음부터 끝까지 생략하지 않고 수식으로 유도했다.

강화학습이 추구하는 기본 목표로부터 A2C, A3C, PPO, DDPG, SAC 및 모델 기반 강화학습 등 강화학습의 알고리즘이 무엇이고 어떤 목적으로 개발됐는지, 어떻게 수학적으로 유도했는지, 그리고 어떻게 코드로 구현해 적용했는지를 구체적으로 설명한다.

★ 이 책에서 다루는 내용 ★

◎ 강화학습을 이해하기 위한 기본 수학: 확률론, 추정론, 최적화, 벡터/행렬의 미분
◎ 강화학습 알고리즘: A2C, A3C, PPO, DDPG, SAC
◎ 최적제어 알고리즘: 반복적 LQR, 가우시안 LQR
◎ 로컬 모델 기반 강화학습: GMM, 모델 피팅 방법, LQR을 이용한 강화학습

저자

박성수

저자:박성수
서울대학교항공우주공학과에서학사,동대학교대학원에서석사,그리고국비유학으로미국UCBerkeley에서박사학위를받았다.유학가기전에국방과학연구소에서연구원으로일했으며,박사후에는UCBerkeleyITS연구소에서포스트닥연구원으로일했다.현재세종대학교항공우주공학과교수이며,유도항법제어및AIforDynamicsandControl분야를연구하고있다.

◎개인블로그:https://pasus.tistory.com/

목차

▣01장:강화학습수학
1.1확률과랜덤변수
___1.1.1확률
___1.1.2랜덤변수
___1.1.3누적분포함수와확률밀도함수
___1.1.4결합확률함수
___1.1.5조건부확률함수
___1.1.6독립랜덤변수
___1.1.7랜덤변수의함수
___1.1.8베이즈정리
___1.1.9샘플링
1.2기댓값과분산
___1.2.1기댓값
___1.2.2분산
___1.2.3조건부기댓값과분산
1.3랜덤벡터
___1.3.1정의
___1.3.2기댓값과공분산행렬
___1.3.3샘플평균
1.4가우시안분포
1.5랜덤시퀀스
___1.5.1정의
___1.5.2평균함수와자기상관함수
___1.5.3마르코프시퀀스
1.6선형확률차분방정식
1.7표기법
1.8중요샘플링
1.9엔트로피
1.10KL발산
1.11추정기
___1.11.1최대사후추정기
___1.11.2최대빈도추정기
1.12벡터와행렬의미분
___1.12.1벡터로미분
___1.12.2행렬로미분
1.13촐레스키분해
1.14경사하강법
___1.14.1배치경사하강법
___1.14.2확률적경사하강법
1.15경사하강법의개선
___1.15.1모멘텀
___1.15.2RMSprop
___1.15.3아담
1.16손실함수의확률론적해석
___1.16.1가우시안오차분포
___1.16.2베르누이오차분포

▣02장:강화학습개념
2.1강화학습개요
2.2강화학습프로세스와표기법
2.3마르코프결정프로세스
___2.3.1정의
___2.3.2가치함수
___2.3.3벨만방정식
___2.3.4벨만최적방정식
2.4강화학습방법

▣03장:정책그래디언트
3.1배경
3.2목적함수
3.3정책그래디언트
3.4REINFORCE알고리즘

▣04장:A2C
4.1배경
4.2그래디언트의재구성
4.3분산을감소시키기위한방법
4.4A2C알고리즘
4.5A2C알고리즘구현
___4.5.1테스트환경
___4.5.2코드개요
___4.5.3액터클래스
___4.5.4크리틱클래스
___4.5.5에이전트클래스
___4.5.6학습결과
___4.5.7전체코드

▣05장:A3C
5.1배경
5.2그래디언트계산의문제
___5.2.1샘플의상관관계
___5.2.2n-스텝가치추정
5.3비동기액터-크리틱(A3C)알고리즘
5.4그래디언트병렬화방식의A3C알고리즘구현
___5.4.1테스트환경
___5.4.2코드개요
___5.4.3액터클래스
___5.4.4크리틱클래스
___5.4.5에이전트클래스
___5.4.6학습결과
___5.4.7전체코드
5.5데이터병렬화방식의A3C알고리즘구현
___5.5.1코드개요
___5.5.2전체코드

▣06장:PPO
6.1배경
6.2그래디언트의재구성
6.3정책업데이트와성능
6.4PPO알고리즘
6.5어드밴티지추정의일반화(GAE)
6.6PPO알고리즘구현
___6.6.1테스트환경
___6.6.2코드개요
___6.6.3액터클래스
___6.6.4크리틱클래스
___6.6.5에이전트클래스
___6.6.6학습결과
___6.6.7전체코드

▣07장:DDPG
7.1배경240
7.2그래디언트의재구성
7.3DDPG알고리즘
7.4DDPG알고리즘구현
___7.4.1테스트환경
___7.4.2코드개요
___7.4.3액터클래스
___7.4.4크리틱클래스
___7.4.5액터-크리틱에이전트클래스
___7.4.6학습결과
___7.4.7전체코드

▣08장:SAC
8.1배경
8.2소프트벨만방정식
8.3소프트정책개선
8.4SAC알고리즘
8.5SAC알고리즘구현
___8.5.1테스트환경
___8.5.2코드개요
___8.5.3액터클래스
___8.5.4크리틱클래스
___8.5.5에이전트클래스
___8.5.6학습결과
___8.5.7전체코드

▣09장:모델기반강화학습기초
9.1배경
9.2최적제어
___9.2.1LQR
___9.2.2확률적LQR
___9.2.3가우시안LQR
___9.2.4반복적LQR
9.3모델학습방법

▣10장:로컬모델기반강화학습
10.1배경
10.2로컬모델피팅기반LQR
10.3로컬모델피팅
___10.3.1조건부가우시안방법
___10.3.2GMM사전분포를이용한로컬모델업데이트
10.4로컬제어법칙업데이트
___10.4.1대체비용함수계산
___10.4.2KL발산계산
___10.4.3h조정
___10.4.4e조정
10.5가우시안LQR을이용한강화학습알고리즘
10.6가우시안LQR을이용한강화학습알고리즘구현
___10.6.1테스트환경
___10.6.2코드개요
___10.6.3궤적생성
___10.6.4로컬모델피팅
___10.6.5가우시안LQR
___10.6.6가우시안혼합모델
___10.6.7LQR-FLM에이전트클래스
___10.6.8학습결과
___10.6.9전체코드
10.7GPS로의발전

▣참고문헌

출판사 서평

★이책에서다루는내용★

◎강화학습을이해하기위한기본수학:확률론,추정론,최적화,벡터/행렬의미분
◎강화학습알고리즘:A2C,A3C,PPO,DDPG,SAC
◎최적제어알고리즘:반복적LQR,가우시안LQR
◎로컬모델기반강화학습:GMM,모델피팅방법,LQR을이용한강화학습