강화학습 기본 다지기와 PyTorch

강화학습 기본 다지기와 PyTorch

$25.18
저자

추상목

서울대에서이학사,이학석사,이학박사를취득한후,울산대학교수학과에부임하여현재까지교수로재임하면서파이썬프로그래밍,수리통계학,수리인공지능(빅데이터분석,순방향신경망,언어처리에사용하는순환신경망,이미지처리에사용하는합성곱신경망,강화학습)강의를하고있다.

목차

제1장N-stepDQN
1.용어설명과구성요소
2.신경망구조
3.정책(상태가입력되면행동출력)정의
4.학습데이터(memory)정의
5.손실정의
6.파라미터업데이트함수정의
7.Main
8.코드설명
9.전체코드
10.연습문제
11.부록

제2장NoisyNet
1.용어설명과구성요소
2.신경망구조
3.정책(상태가입력되면행동출력)정의
4.학습데이터(memory)정의
5.손실정의
6.파라미터업데이트함수
7.Main
8.코드설명
9.전체코드
10.연습문제
11.부록

제3장CategoricalDQN(C51)
1.용어설명과구성요소
2.신경망구조
3.정책(상태가입력되면행동출력)정의
4.학습데이터(memory)정의
5.손실정의
6.파라미터업데이트함수
7.Main
8.코드설명
9.전체코드
10.연습문제
11.부록

제4장QuantileRegressionDQN(QRDQN)
1.구성요소
2.용어설명
3.신경망구조
4.정책(상태가입력되면행동출력)정의
5.학습데이터(memory)정의
6.손실정의
7.파라미터업데이트함수
8.Main
9.코드설명
10.전체코드
11.연습문제
12.부록

제5장ImplicitQuantileNetwork(IQN)
1.구성요소
2.용어설명
3.신경망구조
4.정책(상태가입력되면행동출력)정의
5.학습데이터(memory)정의
6.손실정의
7.파라미터업데이트함수정의
8.Main
9.코드설명
10.전체코드
11.부록

제6장FullyParameterizedQuantileFunction(FQF)
1.구성요소
2.용어설명
3.신경망구조
4.정책(상태가입력되면행동출력)정의
5.학습데이터(memory)정의
6.손실정의
7.파라미터업데이트함수정의
8.Main
9.코드설명
10.전체코드
11.부록

제7장Rainbow
1.전체코드
2.연습문제

부록Backupdiagram으로가치계산