구성
Chapter1.강화학습이란
바둑에서시작하여게임,금융,로봇까지수많은분야에서강화학습을통해전례없는수준의AI가만들어졌습니다.기존학습방법론과어떤차이가있었기에이런도약이가능했을까요?그에대한답은강화학습이무엇인가라는작은이야기부터시작합니다.
Chapter2.마르코프결정프로세스
문제를풀기위해서는먼저문제가잘정의되어야합니다.강화학습에서문제를잘정의하려면주어진문제를MDP(MarkovDecisionProcess)의형태로만들어야합니다.MDP에대해속속들이알아봅니다.
Chapter3.벨만방정식
대부분의강화학습알고리즘은밸류를구하는것에서출발합니다.그리고밸류를구하는데뼈대가되는수식이바로벨만방정식입니다.벨만기대방정식과벨만최적방정식이라는두종류의방정식을배워봅니다.
Chapter4.MDP를알때의플래닝
벨만방정식학습으로간단한MDP를풀수있습니다.벨만방정식을반복적으로적용하는방법론을통해아주간단한MDP를직접풀어봅니다.
Chapter5.MDP를모를때밸류평가하기
MDP의전이확률과보상함수를모를때에대한이야기가시작됩니다.주어진수식을이용해정확한값을계산하는대신,수많은샘플을통해근사하는“샘플기반방법론”을배워봅니다.
Chapter6.MDP를모를때최고의정책찾기
Control문제를해결할차례입니다.밸류를계산할수있기때문에이를이용해정책을찾는것은한결쉽습니다.그유명한Q러닝을배워봅니다.
Chapter7.DeepRL첫걸음
커다란MDP의세계를항해하기위해서우리에게는또다른무기가하나필요합니다.바로“딥러닝”입니다.딥러닝과강화학습이만나DeepRL이라는유연하고도범용적인방법론이탄생합니다.먼저딥러닝에대한이야기부터시작합니다.
Chapter8.가치기반에이전트
신경망을이용해액션밸류네트워크를학습하면그게곧하나의에이전트가될수있습니다.아타리게임을플레이하던DQN이바로이방식입니다.가치함수만을가지고움직이는에이전트,즉가치기반에이전트에대해알아보겠습니다.
Chapter9.정책기반에이전트
딥러닝과정책함수가결합하면강력한정책네트워크를만들어냅니다.보상및밸류네트워크를이용해직접적으로정책네트워크를학습하는방법에대해알아보겠습니다.이는수많은최신강화학습알고리즘의뿌리가되는방법론입니다.
Chapter10.알파고와MCTS
인류최고의바둑기사를이긴AI를만드는과정도분해해서생각하면간단한방법론들의조합입니다.이제한걸음만더가면알파고를완전히이해할수있습니다.그마지막한조각인MCTS를소개하고,이를통해알파고를낱낱이분해합니다.
Chapter11.블레이드&소울비무AI만들기
복잡한실시간격투게임에강화학습을적용하는일은어떤과정을거칠까요?블레이드&소울에강화학습을적용하여에이전트를학습시키는과정과시행착오에대해소개합니다.