FREE SHIPING FOR OVER $100 - MOSTLY SHIP VIA USPS GROUND ADVANTAGE %D days %H:%M:%S
윤성진
저자:윤성진 KAIST전산학과에서컴퓨터그래픽스를전공했으며LG전자전자기술원,티맥스소프트,액센츄어등에서소프트웨어연구개발,미들웨어및모듈형로봇플랫폼제품기획업무를수행했다.인공지능전문가로서한국외국어대학교에서딥러닝,자료구조,데이터마이닝을가르치고,㈜인공지능연구원에서연구개발을총괄했다. 현재는SoftAI의연구소장으로서AI솔루션연구개발을하고있으며서울과학종합대학원대학교AI첨단대학원겸직교수를역임하고있다.대표저서에는『Doit!딥러닝교과서』(이지스퍼블리싱,2021),『파이썬으로구현하는로보어드바이저』(에이콘,2024),『모두를위한컨벡스최적화』(오픈소스,2018)가있다.
1부.강화학습개요1장.강화학습개요1.1강화학습이란?1.2강화학습의응용1.3강화학습의도전과제2장.강화학습알고리즘2.1강화학습의정의2.2강화학습알고리즘의종류2.3강화학습의학습단계2.4알고리즘선택기준2부.강화학습프레임워크소개3장.강화학습프레임워크3.1강화학습논리구성3.2강화학습프레임워크클래스구성3.2.1공통클래스와커스터마이징클래스4장.강화학습프레임워크개발환경4.1개발환경구성4.2OpenGym소개4.3강화학습프레임워크의실행3부.강화학습맛보기정책기반방법5장.러너5.1러너의구성5.2러너의작동방식5.3Runner클래스정의5.4Runner클래스구현코드6장.환경루프6.1환경루프의구성6.2환경루프의작동방식6.3EnvironmentLoop클래스정의6.4EnvironmentLoop클래스구현코드7장.폴리시그레이디언트7.1정책기반방법의유도7.2분산최소화방안8장.REINFORCE알고리즘구현8.1REINFORCE알고리즘구성8.2REINFORCE클래스8.3REINFORCENetwork클래스8.4REINFORCELearner클래스8.5몬테카를로리턴8.6CartPole-v1환경8.7LunarLanderContinuous-v2학습4부.강화학습발담그기정책기반방법성능개선9장.에이전트9.1에이전트구성9.2에이전트9.3액터9.4학습자9.5네트워크10장.정책10.1정책의종류10.2정책의구성10.3Policy클래스10.4StochasticPolicy클래스10.5CategoricalPolicy클래스10.6GaussianPolicy클래스10.7MLP클래스10.8CategoricalPolicyMLP클래스10.9GaussianPolicyMLP클래스11장.REINFORCE베이스라인적용11.1새로운알고리즘추가11.2REINFORCE베이스라인버전구성11.3REINFORCEB클래스11.4REINFORCEBNetwork클래스11.5REINFORCEBLearner클래스11.6CartPole-v1학습11.7LunarLanderContinuous-v2학습11.8새로운환경학습5부.강화학습즐기기액터-크리틱방법12장.액터-크리틱방법12.1가치함수12.2액터-크리틱방법12.3A2C13장.A2C알고리즘구현13.1A2C알고리즘구성13.2A2C클래스13.3A2CNetwork클래스13.4A2CLearner클래스13.5n-스텝리턴13.6GAE13.7CartPole-v1학습13.8LunarLanderContinuous-v2학습14장.가치함수14.1가치함수14.2가치함수의구성14.3ValueFunction클래스14.4StateValueFunction클래스14.5ActionValueFunction클래스14.6ValueFunctionMLP클래스14.7QFunctionMLP클래스14.8QFunctionMLPDQN클래스15장.데이터셋15.1데이터셋구성방식15.2데이터셋의구성15.3버퍼와버퍼스키마15.4롤아웃버퍼15.5리플레이버퍼16장.환경16.1환경의작동방식16.2환경구성16.3Environment클래스16.4EnvironmentSpec클래스16.5OpenGym클래스6부.강화학습완성하기가치기반방법17장.가치기반방법17.1가치기반방법17.2DQN17.3더블DQN(DoubleDQN)18장.가치기반방법18.1DQN알고리즘구성18.2DQN클래스18.3DQNNetwork클래스18.4유틸리티함수18.5DQNLearner클래스18.6CartPole-v1학습19장.더블DQN알고리즘구현19.1더블DQN알고리즘구성19.2DDQN클래스19.3DDQNNetwork클래스19.4DDQNLearner클래스19.5CartPole-v1학습7부.강화학습성능개선분산강화학습20장.PPO알고리즘20.1PPO알고리즘21장.PPO알고리즘구현21.1PPO알고리즘구성21.2PPO클래스21.3PPONetwork클래스21.4PPOLearner클래스21.5CartPole-v1학습21.6LunarLanderContinuous-v2학습21.7AntBulletEnv-v0학습22장.다중환경러너22.1A2C와A3C22.2다중환경러너의구성22.3MultiEnvRunner클래스22.4MultiEnvAsyncRunner클래스22.5다중환경성능확인22.6Ray소개
이책에서다루는내용단계적이고체계적으로다루는강화학습의기초부터고급주제까지정책기반(REINFORCE,PPO),액터-크리틱(A2C,A3C),가치기반(DQN,DDQN)알고리즘의이론과실습을균형있게제공개념을시각화하고수식을단계별로풀어설명하며배경지식을이해하도록팁을제공알고리즘의핵심코드를직접구현해보고정답을즉시확인해보는방식의실습구성강화학습프레임워크를설계하고이를기반으로강화학습알고리즘을구현강화학습의주요구성요소와전체프로세스를체계적으로이해할수있으며독자가알고리즘을스스로개선하고확장할수있도록지원분산학습과같은최신기법을포함해실무환경에바로적용할수있는실전지식제공이책의대상독자심층강화학습을이론부터실습까지체계적으로학습하고자하는독자강화학습프레임워크의구조를이해하고직접구현해보려는독자여러알고리즘을구현해성능을비교·분석해보고싶은독자강화학습을실제업무에적용하고자하는개발자및연구자이공계학부·대학원생,AI분야취업준비생,머신러닝개발자,AIR&D연구원등저자의말거대언어모델의눈부신성공은AGI(ArtificialGeneralIntelligence)를향한인공지능기술의도약을알리고있다.머지않아우리는지능형에이전트와함께일상을공유하게될것이다.이에이전트들은우리가번거롭게느끼는일상업무를대신처리하고,우리의감정상태에맞춰반응하며,복잡한상황속에서합리적인판단을도울조언을제공하고,때로는새로운기회를제안하기도할것이다.지능형에이전트에게중요한능력중하나는장기적이고인과관계가복잡한의사결정문제를푸는능력이다.강화학습은의사결정과정에서현재의행동이미래에어떠한영향을미칠지를고려하며자율학습을통해지능화를가속한다.로봇팔은수차례의시행착오를거쳐물체를잡고조작하는법을터득하고,알파제로(AlphaZero)는인간의기보없이도자기대국(self-play)을반복하며바둑실력을획득한다.최선의행동을반복하는‘활용’과,새로운행동을시도해더나은전략을발견하는‘탐험’을스스로조절하며,게임에서승리하거나로봇이임무를완수해야하는것과같은장기적인목표를달성하기위해계획을세우고수정하기도한다.이런강화학습의인과성을고려한자율학습능력은지능형에이전트가가져야할주요역량이다.가끔“강화학습공부는어떻게시작하면좋을까요?”라는질문을받곤하는데,그때마다적절한학습자료를추천하기가쉽지않았다.지나치게이론을중심으로써진고전서적은입문자가중도에포기하기쉽고,실무적용을위해꼭필요한심층강화학습내용은깊이다루지않고있다.반면에국내입문서는드물고설명이간소하다.언젠가강화학습책을쓰게된다면심층강화학습을중심으로이론은명쾌하게,실습은이론을검증하는방식으로구성하면좋겠다고생각했다.그렇게몇년의시간이흐른뒤에야이책을쓸수있게됐다.이책은강화학습의이론과실습을균형있게엮은‘이론서’이자‘실습서’이다.단순히알고리즘을나열하지않고각기법이발전하고확장된과정을따라차례대로구성했다.또한,사전에설계된프레임워크를기반으로강화학습알고리즘을구현하는방식을취하고있어서이론적개념을명확히이해하면서도즉시실무에적용해볼수있도록설계했다.본서를통해강화학습의원리와실제를폭넓게익혀지능형에이전트시대에한발더앞서나가길바란다.