박성수
저자:박성수 서울대학교항공우주공학과에서학사,동대학교대학원에서석사,그리고국비유학으로미국UCBerkeley에서박사학위를받았다.유학가기전에국방과학연구소에서연구원으로일했으며,박사후에는UCBerkeleyITS연구소에서포스트닥연구원으로일했다.현재세종대학교항공우주공학과교수이며,유도항법제어및AIforDynamicsandControl분야를연구하고있다. ◎개인블로그:https://pasus.tistory.com/
▣01장:강화학습수학1.1확률과랜덤변수___1.1.1확률___1.1.2랜덤변수___1.1.3누적분포함수와확률밀도함수___1.1.4결합확률함수___1.1.5조건부확률함수___1.1.6독립랜덤변수___1.1.7랜덤변수의함수___1.1.8베이즈정리___1.1.9샘플링1.2기댓값과분산___1.2.1기댓값___1.2.2분산___1.2.3조건부기댓값과분산1.3랜덤벡터___1.3.1정의___1.3.2기댓값과공분산행렬___1.3.3샘플평균1.4가우시안분포1.5랜덤시퀀스___1.5.1정의___1.5.2평균함수와자기상관함수___1.5.3마르코프시퀀스1.6선형확률차분방정식1.7표기법1.8중요샘플링1.9엔트로피1.10KL발산1.11추정기___1.11.1최대사후추정기___1.11.2최대빈도추정기1.12벡터와행렬의미분___1.12.1벡터로미분___1.12.2행렬로미분1.13촐레스키분해1.14경사하강법___1.14.1배치경사하강법___1.14.2확률적경사하강법1.15경사하강법의개선___1.15.1모멘텀___1.15.2RMSprop___1.15.3아담1.16손실함수의확률론적해석___1.16.1가우시안오차분포___1.16.2베르누이오차분포▣02장:강화학습개념2.1강화학습개요2.2강화학습프로세스와표기법2.3마르코프결정프로세스___2.3.1정의___2.3.2가치함수___2.3.3벨만방정식___2.3.4벨만최적방정식2.4강화학습방법▣03장:정책그래디언트3.1배경3.2목적함수3.3정책그래디언트3.4REINFORCE알고리즘▣04장:A2C4.1배경4.2그래디언트의재구성4.3분산을감소시키기위한방법4.4A2C알고리즘4.5A2C알고리즘구현___4.5.1테스트환경___4.5.2코드개요___4.5.3액터클래스___4.5.4크리틱클래스___4.5.5에이전트클래스___4.5.6학습결과___4.5.7전체코드▣05장:A3C5.1배경5.2그래디언트계산의문제___5.2.1샘플의상관관계___5.2.2n-스텝가치추정5.3비동기액터-크리틱(A3C)알고리즘5.4그래디언트병렬화방식의A3C알고리즘구현___5.4.1테스트환경___5.4.2코드개요___5.4.3액터클래스___5.4.4크리틱클래스___5.4.5에이전트클래스___5.4.6학습결과___5.4.7전체코드5.5데이터병렬화방식의A3C알고리즘구현___5.5.1코드개요___5.5.2전체코드▣06장:PPO6.1배경6.2그래디언트의재구성6.3정책업데이트와성능6.4PPO알고리즘6.5어드밴티지추정의일반화(GAE)6.6PPO알고리즘구현___6.6.1테스트환경___6.6.2코드개요___6.6.3액터클래스___6.6.4크리틱클래스___6.6.5에이전트클래스___6.6.6학습결과___6.6.7전체코드▣07장:DDPG7.1배경2407.2그래디언트의재구성7.3DDPG알고리즘7.4DDPG알고리즘구현___7.4.1테스트환경___7.4.2코드개요___7.4.3액터클래스___7.4.4크리틱클래스___7.4.5액터-크리틱에이전트클래스___7.4.6학습결과___7.4.7전체코드▣08장:SAC8.1배경8.2소프트벨만방정식8.3소프트정책개선8.4SAC알고리즘8.5SAC알고리즘구현___8.5.1테스트환경___8.5.2코드개요___8.5.3액터클래스___8.5.4크리틱클래스___8.5.5에이전트클래스___8.5.6학습결과___8.5.7전체코드▣09장:모델기반강화학습기초9.1배경9.2최적제어___9.2.1LQR___9.2.2확률적LQR___9.2.3가우시안LQR___9.2.4반복적LQR9.3모델학습방법▣10장:로컬모델기반강화학습10.1배경10.2로컬모델피팅기반LQR10.3로컬모델피팅___10.3.1조건부가우시안방법___10.3.2GMM사전분포를이용한로컬모델업데이트10.4로컬제어법칙업데이트___10.4.1대체비용함수계산___10.4.2KL발산계산___10.4.3h조정___10.4.4e조정10.5가우시안LQR을이용한강화학습알고리즘10.6가우시안LQR을이용한강화학습알고리즘구현___10.6.1테스트환경___10.6.2코드개요___10.6.3궤적생성___10.6.4로컬모델피팅___10.6.5가우시안LQR___10.6.6가우시안혼합모델___10.6.7LQR-FLM에이전트클래스___10.6.8학습결과___10.6.9전체코드10.7GPS로의발전▣참고문헌
★이책에서다루는내용★◎강화학습을이해하기위한기본수학:확률론,추정론,최적화,벡터/행렬의미분◎강화학습알고리즘:A2C,A3C,PPO,DDPG,SAC◎최적제어알고리즘:반복적LQR,가우시안LQR◎로컬모델기반강화학습:GMM,모델피팅방법,LQR을이용한강화학습