파이토치로 완성하는 실전 강화학습 : REINFORCE, A2C, DQN, DDQN, PPO, A3C 이론과 구현을 한번에

파이토치로 완성하는 실전 강화학습 : REINFORCE, A2C, DQN, DDQN, PPO, A3C 이론과 구현을 한번에

$47.75
저자

윤성진

저자:윤성진
KAIST전산학과에서컴퓨터그래픽스를전공했으며LG전자전자기술원,티맥스소프트,액센츄어등에서소프트웨어연구개발,미들웨어및모듈형로봇플랫폼제품기획업무를수행했다.인공지능전문가로서한국외국어대학교에서딥러닝,자료구조,데이터마이닝을가르치고,㈜인공지능연구원에서연구개발을총괄했다.
현재는SoftAI의연구소장으로서AI솔루션연구개발을하고있으며서울과학종합대학원대학교AI첨단대학원겸직교수를역임하고있다.대표저서에는『Doit!딥러닝교과서』(이지스퍼블리싱,2021),『파이썬으로구현하는로보어드바이저』(에이콘,2024),『모두를위한컨벡스최적화』(오픈소스,2018)가있다.

목차


1부.강화학습개요
1장.강화학습개요
1.1강화학습이란?
1.2강화학습의응용
1.3강화학습의도전과제

2장.강화학습알고리즘
2.1강화학습의정의
2.2강화학습알고리즘의종류
2.3강화학습의학습단계
2.4알고리즘선택기준

2부.강화학습프레임워크소개
3장.강화학습프레임워크
3.1강화학습논리구성
3.2강화학습프레임워크클래스구성
3.2.1공통클래스와커스터마이징클래스

4장.강화학습프레임워크개발환경
4.1개발환경구성
4.2OpenGym소개
4.3강화학습프레임워크의실행

3부.강화학습맛보기정책기반방법
5장.러너
5.1러너의구성
5.2러너의작동방식
5.3Runner클래스정의
5.4Runner클래스구현코드

6장.환경루프
6.1환경루프의구성
6.2환경루프의작동방식
6.3EnvironmentLoop클래스정의
6.4EnvironmentLoop클래스구현코드

7장.폴리시그레이디언트
7.1정책기반방법의유도
7.2분산최소화방안

8장.REINFORCE알고리즘구현
8.1REINFORCE알고리즘구성
8.2REINFORCE클래스
8.3REINFORCENetwork클래스
8.4REINFORCELearner클래스
8.5몬테카를로리턴
8.6CartPole-v1환경
8.7LunarLanderContinuous-v2학습

4부.강화학습발담그기정책기반방법성능개선
9장.에이전트
9.1에이전트구성
9.2에이전트
9.3액터
9.4학습자
9.5네트워크

10장.정책
10.1정책의종류
10.2정책의구성
10.3Policy클래스
10.4StochasticPolicy클래스
10.5CategoricalPolicy클래스
10.6GaussianPolicy클래스
10.7MLP클래스
10.8CategoricalPolicyMLP클래스
10.9GaussianPolicyMLP클래스

11장.REINFORCE베이스라인적용
11.1새로운알고리즘추가
11.2REINFORCE베이스라인버전구성
11.3REINFORCEB클래스
11.4REINFORCEBNetwork클래스
11.5REINFORCEBLearner클래스
11.6CartPole-v1학습
11.7LunarLanderContinuous-v2학습
11.8새로운환경학습

5부.강화학습즐기기액터-크리틱방법
12장.액터-크리틱방법
12.1가치함수
12.2액터-크리틱방법
12.3A2C

13장.A2C알고리즘구현
13.1A2C알고리즘구성
13.2A2C클래스
13.3A2CNetwork클래스
13.4A2CLearner클래스
13.5n-스텝리턴
13.6GAE
13.7CartPole-v1학습
13.8LunarLanderContinuous-v2학습

14장.가치함수
14.1가치함수
14.2가치함수의구성
14.3ValueFunction클래스
14.4StateValueFunction클래스
14.5ActionValueFunction클래스
14.6ValueFunctionMLP클래스
14.7QFunctionMLP클래스
14.8QFunctionMLPDQN클래스

15장.데이터셋
15.1데이터셋구성방식
15.2데이터셋의구성
15.3버퍼와버퍼스키마
15.4롤아웃버퍼
15.5리플레이버퍼

16장.환경
16.1환경의작동방식
16.2환경구성
16.3Environment클래스
16.4EnvironmentSpec클래스
16.5OpenGym클래스

6부.강화학습완성하기가치기반방법
17장.가치기반방법
17.1가치기반방법
17.2DQN
17.3더블DQN(DoubleDQN)

18장.가치기반방법
18.1DQN알고리즘구성
18.2DQN클래스
18.3DQNNetwork클래스
18.4유틸리티함수
18.5DQNLearner클래스
18.6CartPole-v1학습

19장.더블DQN알고리즘구현
19.1더블DQN알고리즘구성
19.2DDQN클래스
19.3DDQNNetwork클래스
19.4DDQNLearner클래스
19.5CartPole-v1학습

7부.강화학습성능개선분산강화학습
20장.PPO알고리즘
20.1PPO알고리즘

21장.PPO알고리즘구현
21.1PPO알고리즘구성
21.2PPO클래스
21.3PPONetwork클래스
21.4PPOLearner클래스
21.5CartPole-v1학습
21.6LunarLanderContinuous-v2학습
21.7AntBulletEnv-v0학습

22장.다중환경러너
22.1A2C와A3C
22.2다중환경러너의구성
22.3MultiEnvRunner클래스
22.4MultiEnvAsyncRunner클래스
22.5다중환경성능확인
22.6Ray소개

출판사 서평


이책에서다루는내용

단계적이고체계적으로다루는강화학습의기초부터고급주제까지
정책기반(REINFORCE,PPO),액터-크리틱(A2C,A3C),가치기반(DQN,DDQN)알고리즘의이론과실습을균형있게제공
개념을시각화하고수식을단계별로풀어설명하며배경지식을이해하도록팁을제공
알고리즘의핵심코드를직접구현해보고정답을즉시확인해보는방식의실습구성
강화학습프레임워크를설계하고이를기반으로강화학습알고리즘을구현
강화학습의주요구성요소와전체프로세스를체계적으로이해할수있으며독자가알고리즘을스스로개선하고확장할수있도록지원
분산학습과같은최신기법을포함해실무환경에바로적용할수있는실전지식제공

이책의대상독자

심층강화학습을이론부터실습까지체계적으로학습하고자하는독자
강화학습프레임워크의구조를이해하고직접구현해보려는독자
여러알고리즘을구현해성능을비교·분석해보고싶은독자
강화학습을실제업무에적용하고자하는개발자및연구자
이공계학부·대학원생,AI분야취업준비생,머신러닝개발자,AIR&D연구원등

저자의말

거대언어모델의눈부신성공은AGI(ArtificialGeneralIntelligence)를향한인공지능기술의도약을알리고있다.머지않아우리는지능형에이전트와함께일상을공유하게될것이다.이에이전트들은우리가번거롭게느끼는일상업무를대신처리하고,우리의감정상태에맞춰반응하며,복잡한상황속에서합리적인판단을도울조언을제공하고,때로는새로운기회를제안하기도할것이다.
지능형에이전트에게중요한능력중하나는장기적이고인과관계가복잡한의사결정문제를푸는능력이다.강화학습은의사결정과정에서현재의행동이미래에어떠한영향을미칠지를고려하며자율학습을통해지능화를가속한다.로봇팔은수차례의시행착오를거쳐물체를잡고조작하는법을터득하고,알파제로(AlphaZero)는인간의기보없이도자기대국(self-play)을반복하며바둑실력을획득한다.최선의행동을반복하는‘활용’과,새로운행동을시도해더나은전략을발견하는‘탐험’을스스로조절하며,게임에서승리하거나로봇이임무를완수해야하는것과같은장기적인목표를달성하기위해계획을세우고수정하기도한다.이런강화학습의인과성을고려한자율학습능력은지능형에이전트가가져야할주요역량이다.
가끔“강화학습공부는어떻게시작하면좋을까요?”라는질문을받곤하는데,그때마다적절한학습자료를추천하기가쉽지않았다.지나치게이론을중심으로써진고전서적은입문자가중도에포기하기쉽고,실무적용을위해꼭필요한심층강화학습내용은깊이다루지않고있다.반면에국내입문서는드물고설명이간소하다.언젠가강화학습책을쓰게된다면심층강화학습을중심으로이론은명쾌하게,실습은이론을검증하는방식으로구성하면좋겠다고생각했다.그렇게몇년의시간이흐른뒤에야이책을쓸수있게됐다.
이책은강화학습의이론과실습을균형있게엮은‘이론서’이자‘실습서’이다.단순히알고리즘을나열하지않고각기법이발전하고확장된과정을따라차례대로구성했다.또한,사전에설계된프레임워크를기반으로강화학습알고리즘을구현하는방식을취하고있어서이론적개념을명확히이해하면서도즉시실무에적용해볼수있도록설계했다.본서를통해강화학습의원리와실제를폭넓게익혀지능형에이전트시대에한발더앞서나가길바란다.