파이썬 기반 강화학습 알고리듬 (DP, Q-Learning, AC, DQN, TRPO, PPO, DDPG, TD3 | Imitation Learning, ESBAS 알아보기)

Name: 파이썬 기반 강화학습 알고리듬 (DP, Q-Learning, AC, DQN, TRPO, PPO, DDPG, TD3 | Imitation Learning, ESBAS 알아보기)
Brand: 에이콘출판 - 안드레아 론자
SKU: 9791161755571
Price: 32.39 USD
Availability: InStock
Rating: 0 (0 reviews)

$32.39

Ask a Question

Vendor: 에이콘출판 - 안드레아 론자

Type: Python(파이썬)

SKU: 9791161755571

Categories: ALL BOOKS 컴퓨터/인터넷 컴퓨터/인터넷_컴퓨터공학

Tags: 컴퓨터/IT_프로그래밍 언어 파이썬기반강화학습알고리듬DPQLearningACDQNTRPOPPODDPGTD3ImitationLearningESBAS알아보기

Description

강화학습(RL)은 인공지능의 인기 있고 유망한 분야로 변화하는 요구사항에 대응해 이상적인 행동을 자동으로 결정하는 에이전트와 스마트한 모델을 만드는 알고리듬이다. 이 책은 강화학습 알고리듬을 마스터하고 자가학습(self-learning)하는 에이전트를 구현하는 방법을 이해할 수 있도록 도와준다. 강화학습에 필요한 툴, 라이브러리, 설정 사항에 대한 소개를 시작으로 강화학습의 빌딩블록, Q-러닝, SARSA 알고리듬과 같은 가치 기반 방법을 상세히 다룬다

저자

안드레아론자

출간작으로『파이썬기반강화학습알고리듬』등이있다.

1부.알고리듬과환경

1장.강화학습의개요
__강화학습소개
______강화학습과지도학습의비교
____강화학습의역사
____딥강화학습
__강화학습의구성요소
____폴리시
____가치함수
____보상
____모델
__강화학습애플리케이션
____게임
____로봇과인더스트리4.0
____기계학습
____경제와금융
____헬스케어
____지능형교통시스템
____에너지최적화와스마트그리드
__요약
__질문
__심화학습자료

2장.강화학습사이클과OpenAIGym구현하기

__환경설정하기
____OpenAIGym설치하기
____로보스쿨설치하기
__OpenAIGym과강화학습사이클
____강화학습사이클개발하기
____공간에익숙해지기
____텐서플로우2.X
________즉시실행
________오토그래프
__텐서플로우기반기계학습모델개발
____텐서
________상수
________변수
________그래프생성하기
____간단한선형회귀예제
____텐서보드도입하기
__강화학습환경의유형
____왜다른환경인가?
____오픈소스환경
__요약
__질문
__심화학습자료

3장.동적프로그래밍DP으로문제해결하기
__MDP
____폴리시
____감가율과리턴
____가치함수
____벨만방정식
__강화학습알고리듬분류
____모델프리알고리듬
________가치기반알고리듬
________폴리시그래디언트알고리듬
________액터크리틱알고리듬
________하이브리드알고리듬
____모델기반강화학습
____알고리듬다양화
__DP
____폴리시평가와폴리시개선
____폴리시이터레이션
________프로즌레이크에적용된폴리시이터레이션
____가치이터레이션
________프로즌레이크에적용한가치이터레이션
__요약
__질문
__심화학습자료

2부.모델프리강화학습알고리듬

4장.Q-러닝과SARSA애플리케이션

__모델없이학습하기
____사용자경험
____폴리시평가
____탐색문제
________왜탐색해야하는가?
________탐색방법
__시간차학습
____시간차업데이트
____폴리시개선
____몬테카를로와시간차비교
__SARSA
____알고리듬
__Taxi-v2에SARSA적용하기
__Q-러닝
____이론
____알고리듬
__Taxi-v2에Q-러닝적용하기
____SARSA와Q-러닝비교
__요약
__질문

5장.DeepQ-Network

__심층신경망과Q-러닝
____함수근사
____신경망을이용한Q-러닝
____딥Q-러닝의불안정성
__DQN
____해결책
________리플레이메모리
________타깃네트워크
____DQN알고리듬
________손실함수
________의사코드
____모델아키텍처
__DQN을퐁에적용하기
____아타리게임
____전처리
____DQN구현
________DNN
________경험버퍼
________계산그래프와훈련루프
____결과
__DQN개선알고리듬
____DoubleDQN
________DDQN구현
________결과
____DQN듀얼링하기
________듀얼링DQN구현
________결과
____N-스텝DQN
________구현
________결과
__요약
__질문
__심화학습자료

6장.확률기반PG최적화학습

__폴리시그래디언트메소드
____폴리시의그래디언트
____폴리시그래디언트정리
____그래디언트계산하기
____폴리시
____온-폴리시PG
__REINFORCE알고리듬이해하기
____REINFORCE구현하기
____REINFORCE를이용해탐사선착륙시키기
________결과분석하기
__베이스라인이있는REINFORCE
____베이스라인으로REINFORCE구현하기
__AC알고리듬학습하기
____액터가학습하도록돕기위해크리틱사용하기
____n-stepAC모델
____AC구현
____AC를사용해탐사선spacecraft착륙시키기
____고급AC팁과트릭
__요약
__질문
__심화학습자료

7장.TRPO와PPO구현

__로보스쿨
____연속시스템제어
__NaturalPolicyGradient
____NPG에대한아이디어
____수학적개념
________FIM과KL발산
____NG문제
__TRPO
____TRPO알고리듬
____TRPO알고리듬구현
____TRPO애플리케이션
__ProximalPolicyOptimization
____PPO의개요
____PPO알고리듬
____PPO의구현
____PPO애플리케이션
__요약
__질문
__심화학습자료

8장.DDPG와TD3애플리케이션

__폴리시그래디언트최적화와Q-러닝결합하기
____결정론적폴리시그래디언트
____DDPG알고리듬
____DDPG구현
____DDPG를BipedalWalker-v2에적용하기
__TD3폴리시그래디언트
____과대평가편향문제해결
________TD3의구현
____분산감소해결
________지연된폴리시업데이트
________타깃정규화
____BipedalWalker에TD3를적용하기
__요약
__질문
__심화학습자료

3부.모델프리알고리듬과개선

9장.모델기반강화학습

__모델기반메소드
____모델기반학습에대한폭넓은관점
________알려진모델
________미지의모델
____장단점
__모델기반학습과모델프리학습결합하기
____모델기반과모델프리접근법의유용한조합
____이미지에서모델만들기
__역진자에적용한ME-TRPO모델
____ME-TRPO이해하기
____ME-TRPO구현하기
____로보스쿨실험하기
________로보스쿨역진자실험결과
__요약
__질문
__심화학습자료

10장.DAgger알고리듬으로모방학습하기

__기술적요구사항
____FlappyBird설치
__모방접근
____운전보조사례
____IL과RL비교하기
____모방학습에서전문가의역할
____IL구조
________수동모방과능동모방비교하기
__FlappyBird게임하기
____환경을이용하는방법
__데이터집합dataset집계알고리듬이해하기
____DAgger알고리듬
____DAgger의구현
________전문가추론모델적재
________학습자의계산그래프만들기
________DAggerloop만들기
____FlappyBird결과분석
__IRL
__요약
__질문
__심화학습자료

11장.블랙박스최적화알고리듬이해하기

__강화학습의대안
____강화학습에대한간단한요약
____대안
________EAs
__EA의핵심
____유전자알고리듬GA
____진화전략
________CMA-ES
________ES대RL
__확장가능한진화전략
____핵심
________ES병렬화하기
________다른트릭
________의사코드
____확장가능한구현
________메인함수
________작업자
__확장가능한ES를LunarLander에적용하기
__요약
__질문
__심화학습자료

12장.ESBAS알고리듬개발하기

__탐색대활용
____멀티암드밴딧
__탐색접근법
____탐욕전략
____UCB알고리듬
________UCB1
____탐색복잡도
__ESBAS
____알고리듬선택알아보기
____ESBAS내부구조
____구현
____Acrobot실행하기
________결과
__요약
__질문
__심화학습자료

13장.강화학습문제를해결하기위한실제구현
__딥강화학습의모범사례
____적합한알고리듬선택하기
____강화학습알고리듬개발하기
__딥강화학습의도전과제
____안정성과재현성
____효율성
____일반화
__고급기술
____비지도강화학습
________내재적보상
____전이학습
________전이학습의유형
__현실에서의강화학습
____강화학습을현실에적용할때해결해야할문제
____시뮬레이션과현실사이의차이줄이기
____자기만의환경만들기
__강화학습의미래와사회에미치는영향
__요약
__질문
__심화학습자료

출판사 서평

★이책에서다루는내용★

■OpenAIGym인터페이스를이용해카트폴게임을하는에이전트개발
■모델기반강화학습패러다임
■동적프로그래밍으로프로즌레이크문제해결
■Q-러닝과SARAS를이용해택시게임실행
■딥Q-러닝(DQN)을이용해아타리게임실행
■액터크리틱과REINFORCE를이용해폴리시그래디언트알고리듬학습
■PPO와TRPO를연속형로코모션환경에사용
■진화전략을사용한달착륙문제해결

★이책의대상독자★

인공지능엔지니어나딥러닝사용자가강화학습기초를배울때적합하다.또한강화학습분야의일부고급기술을알고싶은경우에도유용하다.다만책내용을이해하려면파이썬을활용할줄알아야한다.

★이책의구성★

1장,‘강화학습의개요’에서는강화학습이필요한분야와강화학습알고리듬을이미적용한분야를설명한다.또한2장의프로젝트실행에필요한툴,라이브러리,설정(setup)을설명한다.
2장,‘강화학습사이클과OpenAIGym구현’에서는강화학습알고리듬의주요사이클,알고리듬개발에필요한툴킷,다양한환경유형을설명한다.랜덤액션을이용해카트폴(cartpole)을플레이하기위해OpenAIGym인터페이스를이용한랜덤에이전트를개발할수있다.또한다른환경을실행하기위해OpenAIGym인터페이스를사용하는방법을학습해본다.
3장,‘동적프로그래밍으로문제해결하기’에서는핵심아이디어,용어,강화학습의접근법을소개한다.강화학습의메인블록을학습하고문제해결을위해강화학습알고리듬을만드는방법의일반적인아이디어를개발한다.또한모델기반과모델프리알고리듬의차이와강화학습알고리듬분류를학습할것이다.동적프로그래밍은프로즌레이크(frozenlake)게임을해결하는데사용해본다.
4장,‘Q-러닝과SARSA애플리케이션’에서는가치기반메소드,특히동적프로그래밍과다르며대규모문제에확장적용이가능한Q-러닝과SARSA를설명한다.이알고리듬을이해하기위해프로즌레이크게임에강화학습을적용하고동적프로그래밍과의차이를알아본다.
5장,‘DQN’에서는특별히Q-러닝에적용한신경망과컨볼루션신경망CNN을설명한다.Q-러닝과신경망의결합이어떻게뛰어난결과를만들고많은문제해결에사용될수있는지알게될것이다.추가로DQN을OpenAIGym인터페이스를이용한아타리게임에사용해본다.
6장,‘확률적PG최적화학습’에서는새로운모델프리알고리듬군(폴리시그래디언트메소드)을소개한다.그리고폴리시그래디언트와가치기반메소드의차이점과장단점을학습한다.다음으로REINFORCE와액터크리틱알고리듬을구현해달착륙문제를해결해본다.
7장,‘TRPO와PPO구현’에서는폴리시개선을제어하기위해신규메커니즘을사용한폴리시그래디언트메소드변경을제안한다.이메커니즘은폴리시그래디언트알고리듬의안정성과수렴성을개선하는데사용한다.특히TRPO와PPO같은기술을사용한2개의메인폴리시그래디언트메소드를구현한다.연속형액션공간을가진환경인로보스쿨(RoboSchool)에구현해본다.
8장,‘DDPG와TD3애플리케이션’에서는폴리시그래디언트와Q-러닝을모두결합한결정적폴리시알고리듬이라는신규알고리듬을소개한다.내부컨셉을학습하고신규환경에서2개의딥결정적알고리듬인DDPG와TD3를구현해본다.
9장,‘모델기반강화학습’에서는미래액션을계획하거나환경모델을학습하는강화학습알고리듬을설명한다.강화학습알고리듬의작동방법,장점,많은상황에서선호하는이유를알게될것이다.모델기반강화학습을마스터하기위해로보스쿨에서모델기반알고리듬을구현해본다.
10장,‘DAgger알고리듬으로이미테이션학습하기’에서는이미테이션학습의작동방법과문제에적용하고적합화하는방법을설명한다.가장잘알려진이미테이션학습알고리듬인DAgger를학습한다.이알고리듬을잘이해하기위해플래피버드(FlappyBird)에서에이전트의학습과정속도를높이는데활용해본다.
11장,‘블랙박스최적화알고리듬이해하기’에서는역전파에의존하지않는블랙박스최적화알고리듬인진화알고리듬을알아본다.이알고리듬은빠른훈련과수백,수천개코어를이용한쉬운병렬화때문에관심받고있다.11장은일종의진화알고리듬인진화전략알고리듬에초점을둬이이론에대한이론적실제적용배경을설명한다.
12장,‘ESBAS알고리듬개발하기’에서는강화학습에특화된중요한탐색-활용딜레마를소개한다.이딜레마는멀티암트밴딧문제를이용해데모시연을하고UCB와UCB1같은접근법으로해결할것이다.다음으로알고리듬선택문제를학습하고ESBAS메타알고리듬을개발한다.이알고리듬은개별상황에서가장적합한강화학습알고리듬을선택하는UCB1을이용한다.
13장,‘강화학습의도전적과제를해결하기위한실제구현’에서는이분야의주요도전과제를살펴보고이를극복하기위한몇가지사례와메소드를설명한다.강화학습을실제현실문제에적용하기위한몇가지도전과제,딥강화학습의미래개발,현실에서의사회적임팩트를학습한다.