저자

정창훈,이승현,이동민,장성은,이승재,윤승제

저자:정창훈
동국대학교에서컴퓨터공학을전공하고서울대학교컴퓨터공학부에서박사과정중에있다.메타러닝을연구하고,최근에는메타강화학습,오프라인강화학습에관심을가지고연구하고있다.

저자:이승현
현대중공업에서설계엔지니어로일했으며현재포항공과대학교IT융합공학에서박사과정중에있다.학위주제로의료분야에서의환자개인화및치료자동화인공지능을연구해왔으며,최근에는파운데이션모델의임상적적용에관심을가지고연구중이다.

저자:이동민
한양대학교에서컴퓨터공학을전공했으며,이후에서울대학교로봇학습연구실,바이오지능연구실에서머신러닝에관한다양한연구경험을쌓았다.현재는마키나락스에서머신러닝엔지니어로서실제문제에ML기술과MLOps기술을적용하는데에많은관심을가지고있다

저자:장성은
동국대학교에서의생명공학학사,컴퓨터공학학사/석사학위를받았습니다.현재는서울대학교협동과정생물정보학전공박사과정에서메타러닝을포함한다양한머신러닝기술을통해생물학데이터를분석하는연구를수행하고있다.이책의글및코드개발과함께삽화작업을도맡아진행했다.

저자:이승재
프린스턴대학교에서수학을전공했다.현재블룸버그에서언어모델개발및상용화업무를맡고있다.

저자:윤승제
아주대학교에서기계공학을전공했고,KAIST조천식모빌리티대학원에서석사과정동안차량거동예측과모델예측제어(modelpredictivecontrol)등을연구했다.모라이에서인식(perception)파트를맡았으며,현재뉴빌리티자율주행팀에소속되어있다.

감수:최성준
서울대학교전기컴퓨터공학과에서학사/박사학위를받았다.카카오브레인과디즈니리서치를거쳐고려대학교인공지능학과조교수로일하고있다.

목차

▣1장:메타러닝개요
1.1머신러닝과딥러닝
1.2메타러닝이란?
1.3메타러닝학습환경구축
___1.3.1아나콘다설치와사용
___1.3.2아나콘다설치
___1.3.3깃허브저장소클론및환경구축

▣2장:메타지도학습
2.1메타러닝문제정의
___2.1.1태스크정의
___2.1.2메타러닝데이터셋
___2.1.3메타러닝
___2.1.4실습:Torchmeta라이브러리소개
2.2모델기반메타러닝
___2.2.1모델기반메타러닝의핵심개념
___2.2.2NTM(NeuralTuringMachines)
___2.2.3MANN(Memory-AugmentedNeuralNetworks)
___2.2.4실습:MANN구현
___2.2.5SNAIL(SimpleNeuralAttentiveMeta-Learner)
___2.2.6실습:SNAIL구현
2.3최적화기반메타러닝
___2.3.1전이학습과최적화기반메타러닝
___2.3.2MAML과FOMAML
___2.3.3실습:MAML-Regression
___2.3.4실습:MAML-Classification
2.4메트릭기반메타러닝
___2.4.1KNN과메트릭기반메타러닝
___2.4.2Matching네트워크
___2.4.3실습:Matching네트워크구현
___2.4.4Prototypical네트워크
___2.4.5실습:Prototypical네트워크구현
2.5메타러닝알고리즘속성과장단점
___2.5.1메타러닝알고리즘의세가지속성
___2.5.2메타러닝알고리즘비교

▣3장:강화학습개요
3.1마르코프결정과정,정책,가치함수
___3.1.1마르코프결정과정
___3.1.2정책과강화학습의목표
___3.1.3가치함수
3.2탐험과활용
3.3강화학습알고리즘의종류
___3.3.1On-policy와Off-policy
___3.3.2정책기반알고리즘
___3.3.3가치기반알고리즘
___3.3.4액터크리틱알고리즘
3.4TRPO(TrustRegionPolicyOptimization)
___3.4.1TRPO아이디어
___3.4.2Surrogate목적함수와제약조건
___3.4.3켤레그라디언트법기반최적화
3.5PPO(ProximalPolicyOptimzation)
___3.5.1PPO아이디어
___3.5.2ClippedSurrogate목적함수
___3.5.3PPO알고리즘
3.6SAC(SoftActorCritic)
___3.6.1엔트로피
___3.6.2최대엔트로피강화학습
___3.6.3가치함수및정책학습
___3.6.4SAC알고리즘

▣4장:메타강화학습
4.1메타강화학습
___4.1.1태스크개념소개
___4.1.2메타강화학습문제정의
___4.1.3MuJoCo및Half-Cheetah환경개념소개
4.2순환정책메타강화학습
___4.2.1GRU
___4.2.2순환정책메타강화학습
___4.2.3RL2
___4.2.4실습:RL2구현
4.3최적화기반메타강화학습
___4.3.1MAML-RL
___4.3.2실습:MAML-RL구현
4.4컨텍스트기반메타강화학습
___4.4.1태스크추론관점에서의메타강화학습
___4.4.2컨텍스트기반정책
___4.4.3변분적추론
___4.4.4PEARL(ProbabilisticEmbeddingsforActorcriticRL)
___4.4.5실습:PEARL구현

▣5장:오픈챌린지와메타러닝애플리케이션
5.1오픈챌린지(OpenChanllenges)
___5.1.1메타과적합
___5.1.2치명적망각과지속학습
___5.1.3부족한벤치마크
___5.1.4부족한레이블된데이터와메타비지도학습
5.2메타러닝애플리케이션
___5.2.1컴퓨터비전
___5.2.2강화학습
___5.2.3자연어처리
___5.2.4의료
___5.2.5마치며