심층강화학습 (기본 개념에서 최신 알고리즘까지)

심층강화학습 (기본 개념에서 최신 알고리즘까지)

$32.86
Description
이 책은 컴퓨터공학에 대해 다룬 도서입니다. 기초적이고 전반적인 내용을 학습할 수 있습니다.
저자

이창환

목차

1부강화학습

CHAPTER01강화학습의개요
1.1인공지능과기계학습
1.2기계학습의방법들
1.3강화학습의소개
1.4강화학습의응용분야
1.5요약

CHAPTER02마르코프결정프로세스
2.1마르코프모델
2.2마르코프보상프로세스(MRP)
2.3마르코프결정프로세스(MDP)
2.4최적가치값과최적정책
2.5부분관측마르코프결정프로세스

CHAPTER03동적프로그래밍
3.1동적프로그래밍의조건
3.2정책평가
3.3컨트롤
3.5가치값반복
3.6일반화된정책반복
3.7요약

CHAPTER04모델프리정책평가
4.1모델프리환경
4.2몬테카를로정책평가방법
4.3TD학습
4.4몬테카를로와TD의배치학습
4.5TD(n)학습
4.6TD(λ)학습
4.7요약

CHAPTER05모델프리컨트롤
5.1몬테카를로일반화된정책반복
5.2ε-탐욕방법정책향상
5.3TD학습
5.4Sarsa방법
5.5Sarsa(λ)학습
5.6오프정책
5.7Q학습
5.8더블Q학습
5.9요약

2부심층강화학습
CHAPTER06가치값근사함수
6.1가치값표시방법
6.2가치값근사함수방법
6.3점진적하강방법
6.4목적값이주어진가치값근사함수학습
6.5몬테카를로근사함수방법
6.6TD학습근사함수방법
6.7TD(l)근사함수방법
6.8적정성추적
6.9모델프리환경의가치값근사함수
6.10요약

CHAPTER07심층신경망과최적화학습
7.1인공신경망
7.2신경망의학습방법
7.3심층신경망
7.4심층신경망의종류
7.5요약

CHAPTER08심층Q네트워크
8.1심층강화학습
8.2심층Q네트워크
8.3Atari게임에서의DQN
8.4더블DQN
8.5듀얼DQN
8.6순환DQN
8.7요약

CHAPTER09정책그레디언트
9.1정책기반강화학습
9.2정책네트워크
9.3정책목적함수
9.4정책최적화
9.5정책그레디언트정리
9.6REINFORCE알고리즘
9.7액터-크리틱방법
9.8GAE
9.9요약

CHAPTER10고급정책그레디언트
10.1A3C282
10.2최대엔트로피강화학습291
10.3TRPO294
10.4PPO312
10.5DDPG315
10.6TD3322
10.7요약326

CHAPTER11모방학습
11.1보상값의예측
11.2행동복제
11.3DAGGER
11.4역강화학습
11.5속성매칭
11.6도제학습
11.7GAIL
11.8요약

CHAPTER12새로운강화학습
12.1다중에이전트강화학습
12.2계층강화학습