파이썬과 케라스로 배우는 강화학습 : 내 손으로 직접 구현하는 게임 인공지능 (개정판) - 위키북스 데이터 사이언스 시리즈 54

파이썬과 케라스로 배우는 강화학습 : 내 손으로 직접 구현하는 게임 인공지능 (개정판) - 위키북스 데이터 사이언스 시리즈 54

$28.39
저자

이웅원,양혁렬,김건우,이영무,이의령

저자:이웅원
연세대학교기계공학과를졸업했다.'모두의연구소'에서개최한강화학습스터디에참여해공부하면서강화학습관련깃북(https://www.gitbook.com/book/dnddnjs/rl)을작성했다.현재는제이마플에서딥러닝을사용해소리를인식하는작업을하고있다.

저자:양혁렬
한양대학교에서경영학과컴퓨터공학을다중전공하고있다.현재는음악/오디오신호처리와기계학습을결합한분야에관심을가지고서울대학교융합과학기술대학원의음악오디오연구실에서연구원으로참여하고있다.

저자:김건우
뉴욕대학교에서컴퓨터과학학사학위를받았습니다.우버드라이버프라이싱팀에서소프트웨어엔지니어로근무합니다.대학교를다니며딥러닝과강화학습스터디그룹에참여하여『파이썬과케라스로배우는강화학습』(위키북스,2017)을공동집필했습니다.

저자:이영무
중앙대학교컴퓨터공학과에재학중이며'모두의연구소'에서개최한강화학습스터디에서공부했다.현재머신러닝,딥러닝에관련된공부를지속하고있다.

저자:이의령
세종대학교에서응용통계학과경영학을전공하고졸업후스타트업에서서버개발인턴으로근무했다.현재'모두의연구소'에서신호처리관련프로젝트를진행하면서머신러닝과관련된다양한경험을쌓고있다.

목차

[1부]강화학습소개

▣1장:강화학습개요
___강화학습의개념
___스키너의강화연구
___우리주변에서의강화
___머신러닝과강화학습
___스스로학습하는컴퓨터,에이전트
강화학습문제
___순차적행동결정문제
___순차적행동결정문제의구성요소
___방대한상태를가진문제에서의강화학습
강화학습의예시:브레이크아웃
___딥마인드에의해다시빛을본아타리게임
___브레이크아웃의MDP와학습방법
정리
___강화학습의개념
___강화학습문제
___강화학습의예시:브레이크아웃

[2부]강화학습기초

▣2장:강화학습기초1-MDP와벨만방정식
MDP
___상태
___행동
___보상함수
___상태변환확률
___할인율
___정책
가치함수
___가치함수
큐함수
벨만방정식
___벨만기대방정식
___벨만최적방정식
정리
___MDP
___가치함수
___벨만방정식

▣3장:강화학습기초2-그리드월드와다이내믹프로그래밍
다이내믹프로그래밍과그리드월드
___순차적행동결정문제
___다이내믹프로그래밍
___격자로이뤄진간단한예제:그리드월드
다이내믹프로그래밍1:정책이터레이션
___강화학습알고리즘의흐름
___정책이터레이션
___정책평가
___정책발전
___정책이터레이션코드설명
___정책이터레이션코드실행
다이내믹프로그래밍2:가치이터레이션
___명시적인정책과내재적인정책
___벨만최적방정식과가치이터레이션
___가치이터레이션코드설명
___가치이터레이션코드실행
다이내믹프로그래밍의한계와강화학습
___다이내믹프로그래밍의한계
___모델없이학습하는강화학습
정리
___다이내믹프로그래밍과그리드월드
___다이내믹프로그래밍1:정책이터레이션
___다이내믹프로그래밍2:가치이터레이션
___다이내믹프로그래밍의한계와강화학습

▣4장:강화학습기초3-그리드월드와큐러닝
강화학습과정책평가1:몬테카를로예측
___사람의학습방법과강화학습의학습방법
___강화학습의예측과제어
___몬테카를로근사의예시
___샘플링과몬테카를로예측
강화학습과정책평가2:시간차예측
___시간차예측
강화학습알고리즘1:살사
___살사
___살사코드설명
___살사코드의실행및결과
강화학습알고리즘2:큐러닝
___살사의한계
___큐러닝이론
___큐러닝코드설명
___큐러닝코드의실행결과
정리
___강화학습과정책평가1:몬테카를로예측
___강화학습과정책평가2:시간차예측
___강화학습알고리즘1:살사
___강화학습알고리즘2:큐러닝

[3부]강화학습심화

▣5장:강화학습심화1-그리드월드와근사함수
근사함수
___몬테카를로,살사,큐러닝의한계
___근사함수를통한가치함수의매개변수화
인공신경망
___인공신경망1:인공신경망의개념
___인공신경망2:노드와활성함수
___인공신경망3:딥러닝
___인공신경망4:신경망의학습
인공신경망라이브러리:케라스
___텐서플로2.0과케라스소개
___간단한케라스예제
딥살사
___딥살사이론
___딥살사코드설명
___딥살사의실행및결과
폴리시그레이디언트
___정책기반강화학습
___폴리시그레이디언트
___REINFORCE코드설명
___REINFORCE의실행및결과
정리
___근사함수
___인공신경망
___인공신경망라이브러리:케라스
___딥살사
___폴리시그레이디언트

▣6장:강화학습심화2-카트폴
알고리즘1:DQN
___카트폴예제의정의
___DQN이론
___DQN코드설명
___DQN실행및결과
알고리즘2:액터-크리틱
___액터-크리틱이론소개
___액터-크리틱코드설명
___액터-크리틱실행및결과
___연속적액터-크리틱이론소개
___연속적액터-크리틱코드설명
___연속적액터-크리틱실행및결과
정리
___알고리즘1:DQN
___알고리즘2:액터-크리틱

▣7장:강화학습심화3-아타리
브레이크아웃DQN
___아타리:브레이크아웃
___컨볼루션신경망(CNN)이란?
___브레이크아웃의컨볼루션신경망
___DQN학습전준비사항
___DQN코드설명
___텐서보드사용법
___브레이크아웃DQN실행및결과
브레이크아웃A3C
___DQN의한계
___A3C란?
___멀티스레딩소개
___브레이크아웃A3C코드설명
___브레이크아웃A3C실행결과
정리
___브레이크아웃DQN
___브레이크아웃A3C

▣참고문헌