PyTorch로 배우는 딥러닝과 생성형 AI : 개념부터 Vision, 생성형 모형, Foundation 모형의 구현까지

PyTorch로 배우는 딥러닝과 생성형 AI : 개념부터 Vision, 생성형 모형, Foundation 모형의 구현까지

$49.87
Description
ChatGPT, Gemini, Perplexity 등 최근 주목받는 생성형 AI는 단순한 도구의 차원을 넘어, 과학·기술·예술·교육 등 사회 전반에 걸쳐 심대한 변화를 일으키고 있다. 이들은 인간의 언어를 이해하고 창작을 돕는 동시에 복잡한 문제 해결을 지원하는 ‘디지털 조력자’로서 일상의 많은 영역에 침투하고 있다. AI는 이제 전문가만의 영역이 아니라 정부, 기업, 개인 모두가 업무·학습·창작의 도구로 활용하고 있으며, 그 확산 속도는 생각보다 더 빠르다. 실제로 기업의 고객 응대, 법률 검토, 기사 작성 보조, 논문 및 문서 요약, 코딩 등 다양한 분야에서 생성형 AI는 실질적인 ‘효율의 도구’로 쓰이고 있다.

이러한 변화는 불과 수십 년 전인 1980년대 PC의 등장을 떠올리게 한다. 당시 컴퓨터는 극소수만이 사용하는 전문 도구였으나, 얼마 지나지 않아 워드, 엑셀, 이메일은 ‘기술’이 아닌 ‘기본 상식’이 되었다. 오늘날의 딥러닝 역시 그 시절의 PC와 같다. 생성형 AI는 딥러닝이라는 기술의 한 응용에 불과하지만, 그 근간에는 인간의 학습구조를 모방한 ‘인공신경망’이라는 개념이 자리하고 있다. 이는 단지 코드를 짜는 ‘기술’이라기보다 ‘데이터로부터 어떻게 학습하고 예측할 수 있는가?’라는 원리에 대한 이해를 바탕으로 한다.
생성형 AI 덕분에 복잡한 라이브러리 사용법이나 모형 구현 코드의 습득은 거의 불필요한 지식이 되어 버렸기 때문에 미래사회에서 필수적인 역량은 딥러닝의 개념, 작동원리, 데이터 처리의 중요성을 이해하는 것이다. 딥러닝 모형이 어떻게 학습을 진행하고, 어떤 구조로 정보를 표현하는지를 이해하면, AI가 내놓은 결과를 맹신하지 않고 비판적으로 해석할 수 있다. 단순히 ‘생성형 AI를 활용해서 정보를 검색하고, 글을 작성하고 아이디어를 도출하는’ 이용자적 자세가 아니라, 왜 그런 결과가 나왔는지 설명할 수 있는 역량, 이것이 진짜 디지털 문해력(AI literacy)이다.

이 책은 이러한 목적을 가지고 총 3부로 구성하였다. 제1부에서는 딥러닝의 개념, 기본구조, 모수추정과 작동원리, 모형의 진단과 성능향상 기법, 자연어의 수량화 등 딥러닝의 기본원리를 다루었다. 제2부와 제3부는 딥러닝의 응용으로 computer vision과 LLM을 포함한 언어모형을 중점적으로 논의하였다. 제2부에서는 R-CNN 계열과 YOLO-v1부터 YOLO-v12까지를 이용한 자율자동차에서 필수적인 객체인식, 딥드림과 스타일 이전 등을 이용한 AI 예술, 그리고 VAE, Diffusion 모형, GAN 모형 등을 이용한 데이터의 생성과 cross-domain 등을 다루었다. 제3부에서는 현재의 첨단 생성형 AI를 탄생하게 한 transformer와 이로부터 파생된 BERT, GPT, T5, BART 등의 사전학습모형과 Hugging Face를 이용한 다양한 사전학습된 모형들의 이용법, fine tuning, 그리고 한국어 모형들을 다루었다. Transformer를 이용한 생성형 AI의 최근 기법으로 ViT, OCR, CLIP, Stable Diffusion, SAM, 그리고 In-painting 등도 이론적 원리를 설명하고 적용하였다. 또한, Transformer 이후의 LLM 모형이 어떻게 진화하고 있는지를 논의하였고, 특히 ChatGPT나 Gemini 등과 같은 Sovereign 생성형 LLM의 개발 절차를 9단계로 나누어 상세하게 정리하였으며, 이를 기반으로 한국형 foundation 모형이 필요한 이유를 설명하였다. 끝으로, AI(foundation LLM)가 사용자의 의도를 이해하도록 prompt를 수정하고 개선하여 최선의 결과를 도출하는 prompt engineering을 다섯 가지 prompting framework의 관점에서 다양한 예제 prompt와 함께 논의하였다.

앞으로는 AI와 공존하는 삶이 아니라, AI를 이해하고 다룰 수 있는 사람이 더 많은 기회를 얻게 될 것이다. AI를 몰라도 살아는 갈 수 있다. 하지만 AI의 원리를 이해하는 사람은, 그 변화를 주도할 수 있다. AI를 잘 쓰는 것도 중요하지만, AI를 바르게 이해하는 사람이 더욱 중요한 시대가 오고 있다. 이 책이 이러한 시대적 요구에 부응할 수 있기를 기대해 본다.
이 책에서 제공된 코드는 PyTorch로 작성되었으며 필요한 코드와 데이터는 자유아카데미 홈페이지 자료실(www.freeaca.com)에서 내려받을 수 있다. 이 책의 오류수정과 수많은 개념도를 그려준 임자영 양과 박진세 군에게 감사한 마음을 전하고, 이 책이 나오기까지 묵묵하게 성원해 주고 지원해 준 아내와 가족에게 사랑의 마음을 전한다.
저자

박유성

●고려대학교정경대학통계학과졸업
●고려대학교대학원석사과정졸업(통계학전공)
●미국조지아대학교대학원졸업(통계학박사)
●현재고려대학교명예교수

목차

1부딥러닝의작동원리

제1장머신러닝학습절차의핵심및내용요약
1.1ML(machinelearning)
1.2DL(deeplearning)
1.3RL(Reinforcementlearning)

제2장딥러닝데이터와세가지기본신경망
2.1데이터의사전정리
2.2딥러닝에사용되는데이터의형태
2.3은닉층설계를위한세가지핵심신경망

제3장손실함수와최적화
3.1출력층과손실함수
3.2역전파
3.3최적화알고리즘

제4장Pytorch의이해
4.1Pytorch의문법과적용
4.2딥러닝모델과데이터셋의구조와모델의저장
4.3MLP,RNN,그리고CNN의적용

제5장오차분석,초모수조절,그리고딥러닝모형의성능향상
5.1오차분석
5.2자료분할
5.3초모수조절
5.4딥러닝모형의성능향상

제6장CNN의응용과이전학습
6.1사람의성별을구별하기위한CNN의적용
6.2이전학습
6.3이전학습과자료증대

제7장텍스트자료의사전정리와RNN의적용
7.1텍스트자료의사전정리과정
7.2Word2Vec,Glove,그리고WordEmbedding
7.3RNN모형의적용
7.4다른RNN모형과CNN모형과의비교
7.5텍스트데이터의사전정리의요약

제8장Mamba,GNN,KAN모형을이용한시계열분석
8.1Mamba
8.2GNN(GraphNeuralNetwork)
8.3KAN(KomogorovArnoldNetwork)
8.4시계열자료의적용

제9장CNN아키텍처의진화
9.1LeNet-5
9.2AlexNet
9.3VGGNet
9.4ResNet
9.5Inception
9.6Stem-Learner-Task아키텍처
9.7딥러닝의진화


2부ComputerVision

제10장객체탐색I(R-CNN,FastR-CNN,FasterR-CNN)
10.1Upsampling
10.2교통표식의식별
10.3R-CNN에의한객체탐색
10.4FastR-CNN
10.5FasterR-CNN

제11장객체탐색II(YOLO~YOLO12)
11.1YOLO의참사각박스와목적변수의결정
11.2YOLO-v3
11.3YOLOversion의진화

제12장채널시각화,딥드림,그리고스타일이전
12.1채널시각화
12.2딥드림
12.3스타일이전

제13장VariationalAutoencoder와Diffusion모형
13.1AutoEncoder
13.2VariationalAutoencoder
13.3조건부VAE
13.4Diffusion모형

제14장GenerativeAdversarialNetworks(GAN)
14.1DCGAN
14.2CycleGAN


3부LLM

제15장Seq2Seq모형
15.1자료의사전정리
15.2sequence-to-sequence학습
15.3Attention을이용한Seq2Seq

제16장Transformer
16.1Transformer의입력층
16.2Transformer의은닉층
16.3Transformer의적용
16.4한국어챗봇

제17장자연어모형
17.1사전학습,finetuning,few-shot,그리고zero-shot학습
17.2서브워드토큰화
17.3Auto-encoding언어모형
17.4GPT(generativepretrainedtransformer)와text생성을위한Sampling

제18장ViT,OCR,CLIP,StableDiffusion,SAM,In-painting
18.1ViT(VisionTransformer)
18.2TrOCR
18.3CLIP(contrastivelanguage-imagepre-training)
18.4StableDiffusion모형
18.5SAM(SegmentationAnythingModel)
18.6In-painting

제19장LLM모형의진화
19.1T5와LlaMA
19.2Transformerattention의진화
19.3RWKV
19.4LLM모형의적절성조절
19.5RAG(RetrievalAugmentedGeneration)
19.6LLM모형의비교와OpensourceLLM
19.7AI의진화

제20장HuggingFace를이용한언어모형의적용과응용
20.1transformers에서NLP모형의선택방법
20.2HuggingFace를이용한언어모형의적용과응용
20.3HuggingFace를이용한FineTuning

제21장LLM만드는절차와PromptEngineering
21.1LLM모형을만드는절차
21.2한국형LLM은필요한가?
21.3PromptEngineering

참고문헌
찾아보기