FREE SHIPING FOR OVER $100 - MOSTLY SHIP VIA USPS GROUND ADVANTAGE %D days %H:%M:%S
이웅원,양혁렬,김건우,이영무,이의령
저자:이웅원 연세대학교기계공학과를졸업했다.'모두의연구소'에서개최한강화학습스터디에참여해공부하면서강화학습관련깃북(https://www.gitbook.com/book/dnddnjs/rl)을작성했다.현재는제이마플에서딥러닝을사용해소리를인식하는작업을하고있다. 저자:양혁렬 한양대학교에서경영학과컴퓨터공학을다중전공하고있다.현재는음악/오디오신호처리와기계학습을결합한분야에관심을가지고서울대학교융합과학기술대학원의음악오디오연구실에서연구원으로참여하고있다. 저자:김건우 뉴욕대학교에서컴퓨터과학학사학위를받았습니다.우버드라이버프라이싱팀에서소프트웨어엔지니어로근무합니다.대학교를다니며딥러닝과강화학습스터디그룹에참여하여『파이썬과케라스로배우는강화학습』(위키북스,2017)을공동집필했습니다. 저자:이영무 중앙대학교컴퓨터공학과에재학중이며'모두의연구소'에서개최한강화학습스터디에서공부했다.현재머신러닝,딥러닝에관련된공부를지속하고있다. 저자:이의령 세종대학교에서응용통계학과경영학을전공하고졸업후스타트업에서서버개발인턴으로근무했다.현재'모두의연구소'에서신호처리관련프로젝트를진행하면서머신러닝과관련된다양한경험을쌓고있다.
[1부]강화학습소개▣1장:강화학습개요___강화학습의개념___스키너의강화연구___우리주변에서의강화___머신러닝과강화학습___스스로학습하는컴퓨터,에이전트강화학습문제___순차적행동결정문제___순차적행동결정문제의구성요소___방대한상태를가진문제에서의강화학습강화학습의예시:브레이크아웃___딥마인드에의해다시빛을본아타리게임___브레이크아웃의MDP와학습방법정리___강화학습의개념___강화학습문제___강화학습의예시:브레이크아웃[2부]강화학습기초▣2장:강화학습기초1-MDP와벨만방정식MDP___상태___행동___보상함수___상태변환확률___할인율___정책가치함수___가치함수큐함수벨만방정식___벨만기대방정식___벨만최적방정식정리___MDP___가치함수___벨만방정식▣3장:강화학습기초2-그리드월드와다이내믹프로그래밍다이내믹프로그래밍과그리드월드___순차적행동결정문제___다이내믹프로그래밍___격자로이뤄진간단한예제:그리드월드다이내믹프로그래밍1:정책이터레이션___강화학습알고리즘의흐름___정책이터레이션___정책평가___정책발전___정책이터레이션코드설명___정책이터레이션코드실행다이내믹프로그래밍2:가치이터레이션___명시적인정책과내재적인정책___벨만최적방정식과가치이터레이션___가치이터레이션코드설명___가치이터레이션코드실행다이내믹프로그래밍의한계와강화학습___다이내믹프로그래밍의한계___모델없이학습하는강화학습정리___다이내믹프로그래밍과그리드월드___다이내믹프로그래밍1:정책이터레이션___다이내믹프로그래밍2:가치이터레이션___다이내믹프로그래밍의한계와강화학습▣4장:강화학습기초3-그리드월드와큐러닝강화학습과정책평가1:몬테카를로예측___사람의학습방법과강화학습의학습방법___강화학습의예측과제어___몬테카를로근사의예시___샘플링과몬테카를로예측강화학습과정책평가2:시간차예측___시간차예측강화학습알고리즘1:살사___살사___살사코드설명___살사코드의실행및결과강화학습알고리즘2:큐러닝___살사의한계___큐러닝이론___큐러닝코드설명___큐러닝코드의실행결과정리___강화학습과정책평가1:몬테카를로예측___강화학습과정책평가2:시간차예측___강화학습알고리즘1:살사___강화학습알고리즘2:큐러닝[3부]강화학습심화▣5장:강화학습심화1-그리드월드와근사함수근사함수___몬테카를로,살사,큐러닝의한계___근사함수를통한가치함수의매개변수화인공신경망___인공신경망1:인공신경망의개념___인공신경망2:노드와활성함수___인공신경망3:딥러닝___인공신경망4:신경망의학습인공신경망라이브러리:케라스___텐서플로2.0과케라스소개___간단한케라스예제딥살사___딥살사이론___딥살사코드설명___딥살사의실행및결과폴리시그레이디언트___정책기반강화학습___폴리시그레이디언트___REINFORCE코드설명___REINFORCE의실행및결과정리___근사함수___인공신경망___인공신경망라이브러리:케라스___딥살사___폴리시그레이디언트▣6장:강화학습심화2-카트폴알고리즘1:DQN___카트폴예제의정의___DQN이론___DQN코드설명___DQN실행및결과알고리즘2:액터-크리틱___액터-크리틱이론소개___액터-크리틱코드설명___액터-크리틱실행및결과___연속적액터-크리틱이론소개___연속적액터-크리틱코드설명___연속적액터-크리틱실행및결과정리___알고리즘1:DQN___알고리즘2:액터-크리틱▣7장:강화학습심화3-아타리브레이크아웃DQN___아타리:브레이크아웃___컨볼루션신경망(CNN)이란?___브레이크아웃의컨볼루션신경망___DQN학습전준비사항___DQN코드설명___텐서보드사용법___브레이크아웃DQN실행및결과브레이크아웃A3C___DQN의한계___A3C란?___멀티스레딩소개___브레이크아웃A3C코드설명___브레이크아웃A3C실행결과정리___브레이크아웃DQN___브레이크아웃A3C▣참고문헌