강화 학습 (기초 개념부터 최신 알고리즘까지 이론과 실습을 통해 응용으로 가는 길)

Name: 강화 학습 (기초 개념부터 최신 알고리즘까지 이론과 실습을 통해 응용으로 가는 길)
Brand: 한빛아카데미 - 오일석
SKU: 9791173400070
Price: 43.55 USD
Availability: InStock
Rating: 0 (0 reviews)

$43.55

Ask a Question

Vendor: 한빛아카데미 - 오일석

Type: 인공지능

SKU: 9791173400070

Categories: ALL BOOKS

Description

주요 개념과 알고리즘을 이해하고
실습으로 구현하는 강화 학습 교과서

이 책은 강화 학습의 기초부터 응용까지 체계적으로 배우고자 하는 독자를 대상으로 합니다. 먼저 문제 해결을 위한 새로운 아이디어를 소개하고 이를 뒷받침하는 기본 원리를 설명합니다. 이어서 수식에 기반한 알고리즘을 제시하고, TensorFlow와 Gymnasium을 사용한 프로그램을 실습하며 알고리즘을 실제 환경에서 직접 구현하고 학습 성능을 평가해 볼 수 있도록 내용을 구성하였습니다. 또한 전통적인 동적 프로그래밍부터 DQN, PPO, SAC 등 최신 알고리즘까지 다루고 있으며, 자율주행, 지능 로봇, AGI 등 고급 응용 분야와 최신 연구 흐름도 충실히 반영하고 있습니다.

※ 본 도서는 대학 강의용 교재로 개발되었으므로 연습문제 해답은 제공하지 않습니다.

저자

오일석

전북대학교컴퓨터인공지능학부교수로재직중입니다.서울대학교컴퓨터공학부를졸업하고,KAIST전산학과에서박사학위를받았으며주요연구분야는기계학습,컴퓨터비전,인공지능입니다.저서로는한빛아카데미의『컴퓨터비전과딥러닝』(세종도서2023년우수학술도서),『파이썬으로만드는인공지능』(세종도서2021년우수학술도서),『R로배우는데이터과학』,『기계학습』(대한민국학술원2018년우수학술도서),『컴퓨터비전』(대한민국학술원2015년우수학술도서)과교보문고의『패턴인식』(문화체육관광부2009년우수학술도서),『C프로그래밍과스타일링』(2009년),인피니티북스의『세상을여는컴퓨터이야기』(2020년)가있고역서로는한빛아카데미의『앱인벤터2』(2015년)가있습니다.

CHAPTER01소개
1강화학습이란
2기계학습=지도학습+비지도학습+강화학습
3성공사례와응용분야
4간략역사
5읽을거리
연습문제

CHAPTER02강화학습기초다지기
1환경과상호작용하는에이전트
2파이썬으로MDP프로그래밍
3랜덤정책과최적정책의기대이득비교
4정책과가치함수
5강화학습의난이도와접근방법이해
연습문제

CHAPTER03동적프로그래밍
1원리
2벨만방정식과정책반복알고리즘
3벨만최적방정식과가치반복알고리즘
4스토캐스틱과업의동적프로그래밍
5동적프로그래밍의특성과한계
연습문제

CHAPTER04몬테카를로방법
1에피소드발생기
2탐험과탐사의균형
3몬테카를로방법으로정책평가
4몬테카를로방법으로정책학습
5성능향상기법
연습문제

CHAPTER05시간차학습
1원리
2정책평가
3Sarsa
4Q-러닝
5Q-러닝으로블랙잭게임학습
6Q-러닝으로CartPole학습
7성능향상기법
8관점확장
연습문제

CHAPTER06신경망을이용한근사방법
1신경망기초
2신경망구현
3신경망을이용한Q-러닝
4신경망기반Q-러닝구현:CartPole과업
5신경망기반Q-러닝구현:Blackjack과업
6신경망에대한논쟁과새로운길
연습문제

CHAPTER07딥러닝방법
1딥러닝으로대전환
2DQN
3리플레이메모리
4딥러닝기초
5아타리게임환경
6DQN을이용한퐁아타리게임
7덧붙이는말
연습문제

CHAPTER08정책그레이디언트방법
1정책이중심인학습
2REINFORCE알고리즘
3REINFORCE프로그래밍:이산과업
4연속과업을위한정책그레이디언트
5REINFORCE프로그래밍:연속과업
6파이썬의배열연산을이용한속도향상
연습문제

CHAPTER09행동가-비평가방법
1행동가와비평가의협력
2편향-분산트레이드오프
3이익함수
4A2C와A3C
5A2C프로그래밍:이산과업
6A2C프로그래밍:연속과업
연습문제

CHAPTER10신뢰영역방법
1단조정책개선
2TRPO알고리즘
3PPO알고리즘
4PPO의효율향상
5PPO프로그래밍:연속과업
연습문제

CHAPTER11정책최적화와DQN의결합
1동기와전개
2DDPG학습알고리즘
3프로그래밍실습:DDPG를이용한Hopper과업학습
4TD3학습알고리즘
5프로그래밍실습:TD3을이용한Hopper과업학습
6SAC학습알고리즘
7프로그래밍실습:SAC를이용한Hopper과업학습
8벤치마킹분석
연습문제

CHAPTER12흉내학습
1발상과전개
2행위복제
3역강화학습
4적대흉내학습
5관찰흉내
연습문제

CHAPTER13고급응용
1강화학습으로만든고급제품:기회와도전
2비디오게임
3보드게임
4대규모언어모델
5자율주행
6로봇
7인공일반지능을향하여
연습문제

참고문헌
찾아보기

출판사 서평