파이썬과 케라스로 배우는 강화학습 (내 손으로 직접 구현하는 게임 인공지능 | 개정판)

파이썬과 케라스로 배우는 강화학습 (내 손으로 직접 구현하는 게임 인공지능 | 개정판)

$29.11
Description
강화학습의 기초부터 최근 알고리즘까지 친절하게 설명합니다!
‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지기 시작했다. 하지만 처음 강화학습을 공부하는 분들을 위한 쉬운 자료나 강의를 찾아보기 어려웠다. 외국 강의를 통해 어렵게 이론을 공부하더라도 강화학습을 구현하는 데는 또 다른 장벽이 있었다. 이 책은 강화학습을 처음 공부하는 데 어려움을 겪는 독자를 위해 이론부터 코드 구현까지의 가이드를 제시한다.

특히 이번 개정판에서는 텐서플로 버전업에 맞춰서 코드를 업데이트하고 전반적인 이론 및 코드 설명을 개선했다. 그리고 실무에서 많이 활용될 수 있는 연속적 액터-크리틱 알고리즘을 추가했다.
저자

이웅원

당근마켓에서머신러닝엔지니어겸프로덕트매니저로서재직중이다.그전에는제이마플에서딥러닝을활용한소리인식기,네이버에서OCR을연구했다.머신러닝과서비스가맞닿은지점에서일하는것을즐긴다.

목차

[1부]강화학습소개

▣1장:강화학습개요
___강화학습의개념
___스키너의강화연구
___우리주변에서의강화
___머신러닝과강화학습
___스스로학습하는컴퓨터,에이전트
강화학습문제
___순차적행동결정문제
___순차적행동결정문제의구성요소
___방대한상태를가진문제에서의강화학습
강화학습의예시:브레이크아웃
___딥마인드에의해다시빛을본아타리게임
___브레이크아웃의MDP와학습방법
정리
___강화학습의개념
___강화학습문제
___강화학습의예시:브레이크아웃

[2부]강화학습기초

▣2장:강화학습기초1-MDP와벨만방정식
MDP
___상태
___행동
___보상함수
___상태변환확률
___할인율
___정책
가치함수
___가치함수
큐함수
벨만방정식
___벨만기대방정식
___벨만최적방정식
정리
___MDP
___가치함수
___벨만방정식

▣3장:강화학습기초2-그리드월드와다이내믹프로그래밍
다이내믹프로그래밍과그리드월드
___순차적행동결정문제
___다이내믹프로그래밍
___격자로이뤄진간단한예제:그리드월드
다이내믹프로그래밍1:정책이터레이션
___강화학습알고리즘의흐름
___정책이터레이션
___정책평가
___정책발전
___정책이터레이션코드설명
___정책이터레이션코드실행
다이내믹프로그래밍2:가치이터레이션
___명시적인정책과내재적인정책
___벨만최적방정식과가치이터레이션
___가치이터레이션코드설명
___가치이터레이션코드실행
다이내믹프로그래밍의한계와강화학습
___다이내믹프로그래밍의한계
___모델없이학습하는강화학습
정리
___다이내믹프로그래밍과그리드월드
___다이내믹프로그래밍1:정책이터레이션
___다이내믹프로그래밍2:가치이터레이션
___다이내믹프로그래밍의한계와강화학습

▣4장:강화학습기초3-그리드월드와큐러닝
강화학습과정책평가1:몬테카를로예측
___사람의학습방법과강화학습의학습방법
___강화학습의예측과제어
___몬테카를로근사의예시
___샘플링과몬테카를로예측
강화학습과정책평가2:시간차예측
___시간차예측
강화학습알고리즘1:살사
___살사
___살사코드설명
___살사코드의실행및결과
강화학습알고리즘2:큐러닝
___살사의한계
___큐러닝이론
___큐러닝코드설명
___큐러닝코드의실행결과
정리
___강화학습과정책평가1:몬테카를로예측
___강화학습과정책평가2:시간차예측
___강화학습알고리즘1:살사
___강화학습알고리즘2:큐러닝

[3부]강화학습심화

▣5장:강화학습심화1-그리드월드와근사함수
근사함수
___몬테카를로,살사,큐러닝의한계
___근사함수를통한가치함수의매개변수화
인공신경망
___인공신경망1:인공신경망의개념
___인공신경망2:노드와활성함수
___인공신경망3:딥러닝
___인공신경망4:신경망의학습
인공신경망라이브러리:케라스
___텐서플로2.0과케라스소개
___간단한케라스예제
딥살사
___딥살사이론
___딥살사코드설명
___딥살사의실행및결과
폴리시그레이디언트
___정책기반강화학습
___폴리시그레이디언트
___REINFORCE코드설명
___REINFORCE의실행및결과
정리
___근사함수
___인공신경망
___인공신경망라이브러리:케라스
___딥살사
___폴리시그레이디언트

▣6장:강화학습심화2-카트폴
알고리즘1:DQN
___카트폴예제의정의
___DQN이론
___DQN코드설명
___DQN실행및결과
알고리즘2:액터-크리틱
___액터-크리틱이론소개
___액터-크리틱코드설명
___액터-크리틱실행및결과
___연속적액터-크리틱이론소개
___연속적액터-크리틱코드설명
___연속적액터-크리틱실행및결과
정리
___알고리즘1:DQN
___알고리즘2:액터-크리틱

▣7장:강화학습심화3-아타리
브레이크아웃DQN
___아타리:브레이크아웃
___컨볼루션신경망(CNN)이란?
___브레이크아웃의컨볼루션신경망
___DQN학습전준비사항
___DQN코드설명
___텐서보드사용법
___브레이크아웃DQN실행및결과
브레이크아웃A3C
___DQN의한계
___A3C란?
___멀티스레딩소개
___브레이크아웃A3C코드설명
___브레이크아웃A3C실행결과
정리
___브레이크아웃DQN
___브레이크아웃A3C

▣참고문헌

출판사 서평

★이책에서다루는내용★

◎강화학습의배경과개념
◎강화학습의기초이론:MDP,벨만방정식,다이내믹프로그래밍
◎고전강화학습알고리즘:몬테카를로,살사,큐러닝
◎인공신경망을이용한강화학습알고리즘:딥살사,REINFORCE,DQN,액터-크리틱,A3C
◎강화학습알고리즘구현:그리드월드,카트폴,아타리게임