Do it! BERT와 GPT로 배우는 자연어 처리 : 트랜스포머 핵심 원리와 허깅페이스 패키지 활용법

Do it! BERT와 GPT로 배우는 자연어 처리 : 트랜스포머 핵심 원리와 허깅페이스 패키지 활용법

$20.00
Description
‘사람 말을 알아듣는 AI’를 만들어 보자!
트랜스포머 핵심 원리부터 문서 분류, 기계 독해, 문장 생성 실습까지!
사람 말을 알아듣고 처리하는 인공지능은 어떻게 만들까? 이 책은 딥러닝 기반 자연어 처리 기술을 체계적이고 쉽게 배울 수 있는 입문서다. 이 책은 네이버 영화평, 뉴스 댓글, 질의응답 등 한국어 말뭉치로 실습해 국내 자연어 처리 연구가에게 더욱 효과적이며, 트랜스포머의 핵심 원리와 허깅페이스 패키지 활용법 등 최신 자연어 처리 기술의 진수를 담았다. 국내 대표 포털에서 자연어 처리를 연구하는 저자의 오랜 공력을 엿볼 수 있다.
1~3장에서는 트랜스포머와 전이 학습, BERT와 GPT의 핵심 동작 원리를 이해하고, 이를 바탕으로 4~8장에서는 감성 분석, 자연어 추론, 개체명 인식, 질의응답, 문장 생성 등 5가지 과제를 직접 수행해 본다. 실습 코드는 pytorch-lightning, 허깅페이스의 transformers 등 최신 오픈소스 라이브러리를 사용했다.

저자

이기창

저자:이기창
서울대학교국어국문학과를졸업하고고려대학교대학원에서공학석사학위(자연어처리)를취득했다.문장범주분류에큰영향을미치는단어들에높은점수를주는기법을다룬논문(SCI저널게재)에1저자로참여했다.대규모·고품질언어모델학습과구축을업으로삼고있으며문서검색,오픈도메인챗봇에관심이많다.저서로는《한국어임베딩》(2019,에이콘출판사)이있으며블로그도운영하고있다.딥러닝과자연어처리의무궁무진한가능성을믿는다.

목차

=======================
1장처음만나는자연어처리
=======================
1-1딥러닝기반자연어처리모델
1-2트랜스퍼러닝
1-3학습파이프라인소개
1-4개발환경설정

=========================
2장문장을작은단위로쪼개기
=========================
2-1토큰화란?
2-2바이트페어인코딩이란?
2-3어휘집합구축하기
2-4토큰화하기

=======================
3장숫자세계로떠난자연어
=======================
3-1미리학습된언어모델
3-2트랜스포머살펴보기
3-3셀프어텐션동작원리
3-4트랜스포머에적용된기술들
3-5BERT와GPT비교
3-6단어/문장을벡터로변환하기

=======================
4장문서에꼬리표달기
=======================
4-1문서분류모델훑어보기
4-2문서분류모델학습하기
4-3학습마친모델을실전투입하기

=======================
5장문장쌍분류하기
=======================
5-1문장쌍분류모델훑어보기
5-2문장쌍분류모델학습하기
5-3학습마친모델을실전투입하기

=======================
6장단어에꼬리표달기
=======================
6-1개체명인식모델훑어보기
6-2개체명인식모델학습하기
6-3학습마친모델을실전투입하기

=======================
7장질문에답하기
=======================
7-1질의응답모델훑어보기
7-2질의응답모델학습하기
7-3학습마친모델을실전투입하기

=======================
8장문장생성하기
=======================
8-1문장생성모델훑어보기
8-2문장생성모델파인튜닝하기
8-3프리트레인마친모델로문장생성하기
8-4파인튜닝마친모델로문장생성하기
찾아보기

출판사 서평

<이책의특징>

딥러닝기반자연어처리기술의핵심내용을쉽게전달
트랜스포머계열BERT,GPT의동작원리중점설명
NSMC,KorQuAD등한국어데이터의전처리노하우공유
세계적으로널리쓰이는허깅페이스,파이토치라이트닝활용법소개
자연어처리입문자,비전공자의진입장벽을낮추고자수식과코딩최소화

칭찬과욕설을구분하는AI는어떻게만들까?기계는지문을읽고답을어떻게찾을까?인공지능은어떻게소설을쓸수있을까?이책은이런질문의해답과함께최근자연어처리기술발전의중심에있는BERT와GPT의핵심동작원리를알려줍니다.그리고한국어언어모델과데이터를활용해대표과제5가지를직접수행해보면서자연어처리의전반과구체적인활용법을배웁니다.

▶수학,코딩을잘몰라도자연어처리를배울수있어요
자연어처리를정석대로공부하자면딥러닝을비롯해수학,코딩등다양한기법을알아야하지만,이책에서는자연어처리입문을포기하게만드는장벽을허물고자노력했습니다.처음시작할때는트랜스포머에만집중해도충분하기때문입니다.파이썬이나파이토치문법역시당장몰라도최종목적지를확인하는데는문제가없습니다.그래서이책은자연어처리를자신의업무에도입해보려는개발자나데이터사이언티스트뿐만아니라자연어처리에입문하려는어문계열학생이나언어학연구자도쉽게접근할수있도록수식과코딩을최소화했습니다.

▶내손으로만든인공지능을맛보세요
이책은언어모델을만드는것에그치지않고웹서비스까지확장해서모델이제대로동작하는지시험해볼수있도록구성했습니다.오픈소스로공개된한국어말뭉치를학습한언어모델을만들고빈칸맞히기,다음에올단어맞히기,질문에답하기,문장생성하기등내가만든모델이어떻게동작하는지웹브라우저에서직접확인해볼수있습니다.

▶편리한실습환경을제공해요
자연어처리를배울때내컴퓨터에실습환경을구성하다가포기하는사람이많습니다.비전공자나입문자에게는그만큼복잡하고어렵기때문인데요.이책은구글의클라우드컴퓨팅서비스인코랩(Colab)에모든실습환경과코드를마련해두었습니다.독자는웹브라우저에서코랩에접속해책이안내하는대로실습과정을진행하면그결과를확인할수있습니다.이책에서만큼은복잡한환경설정과코딩에서벗어나자연어처리의핵심원리와활용법에집중하도록했습니다.

▶세계적으로널리쓰이는최신오픈소스라이브러리를배워요
실습코드는pytorch-lightning,허깅페이스의transformers등최신오픈소스라이브러리를사용했습니다.이오픈소스라이브러리는전세계에서널리쓰이고있으며내로라하는연구·개발자들이기능개선에참여해서크게발전하고있습니다.또한편의성과확장성이좋아책의실습코드를변형해나만의모델을만들어보기가편합니다.

<이지스퍼블리싱독자지원>
-‘Doit!스터디룸에서운영하는[Doit!공부단]에참여해보세요.이책으로공부하며나만의스터디노트를작성하면이지스퍼블리싱에서출간한다른책을선물로받을수있습니다.
-이지스퍼블리싱홈페이지에회원가입을하면매달정기소식지를통해신간과이벤트소식을확인할수있습니다.매달전자책한권을공개하는이벤트도진행해요.