자연어 처리의 정석 (자연어 처리의 A-Z 과거부터 최근 연구까지)

자연어 처리의 정석 (자연어 처리의 A-Z 과거부터 최근 연구까지)

$50.56
Description
자연어 처리와 머신러닝/딥러닝을 통합하고 해당 과정들을 자세하게 설명하는 책이다. 전통적인 통계 기반의 자연어 처리 방법에서 시작해 최근의 딥러닝/머신러닝 방법을 사용한 자연어 처리 방법까지 다룬다. 먼저, 지도/비지도학습과 관련한 머신러닝 방법론에 대해 설명한 후, 자연어 처리를 다루는 여러 알고리듬을 알아본다. 전통적인 알고리듬인 시퀀스, 트리, 그래프 등을 사용해서 어떻게 자연어를 다루는지 설명한다.
엔지니어와 연구자들이 자연어 처리를 다루기 위해 필요한 언어학 지식에 대해서도 충분히 알아본다. 형태소, 품사에서 시작해서 구조적 표현으로 컴퓨터가 인식하기 위한 연산으로 적용되는지 설명하며, 언어에 대한 형식적인 논리를 위한 방법부터 단어 임베딩까지 의미를 표현하고 해석하는 방법을 다룬다. 마지막에는 문서에서 정보를 추출하는 방법, 기계 번역, 텍스트를 직접 생성하는 것까지 최근의 응용 사례에 대한 방법까지 빼놓지 않고 이야기한다.
결과적으로 이 책은 머신러닝과 언어학을 자연어 처리라는 하나의 목표 아래 통합하며, 최근의 자연어 처리 연구를 이해하고 적용할 수 있도록 만들어주기에 더할 나위 없는 책이다.
저자

제이콥에이젠슈테인

(JacobEisenstein)
현재구글에서연구하고있다.구글에합류하기전에는조지아공과대학교의컴퓨터과학부(SchoolofInteractiveComputing)에서교수로재직했다.

목차

1장.개요
1.1자연어처리와그이웃들
1.2자연어처리의세가지주제

2장.선형텍스트분류
2.1단어가방
2.2나이브베이즈
2.3결정학습
2.4손실함수와큰마진분류
2.5로지스틱회귀
2.6최적화
2.7분류에서의또다른주제들
2.8학습알고리듬요약

3장.비선형분류
3.1피드포워드뉴럴네트워크
3.2뉴럴네트워크디자인하기
3.3뉴럴네트워크학습하기
3.4컨볼루셔널(합성곱)뉴럴네트워크

4장.언어기반의분류응용
4.1감성및의견분석
4.2단어의미의모호성
4.3텍스트분류를위한의사결정디자인
4.4분류기평가하기
4.5데이터세트만들기

5장.비지도학습
5.1비지도학습
5.2기댓값최대화의적용
5.3준지도학습
5.4도메인적응
5.5잠재변수가있는학습에대한여러접근법

6장.언어모델
6.1그램언어모델
6.2평활화와할인하기
6.3순환뉴럴네트워크언어모델
6.4언어모델평가하기
6.5어휘집에없는단어

7장.시퀀스라벨링
7.1분류에서의시퀀스라벨링
7.2구조예측을위한시퀀스라벨링
7.3비터비알고리듬
7.4은닉마르코프모델
7.5피처를사용한결정하는시퀀스라벨링
7.6뉴럴시퀀스라벨링
7.7비지도시퀀스라벨링

8장.시퀀스라벨링응용
8.1품사식별
8.2형태구문론적속성
8.3개체명인식
8.4토크나이제이션
8.5코드스위칭
8.6대화행위

9장.형식언어론
9.1정규언어
9.2문맥자유언어
9.3가벼운문맥의존언어

10장.문맥자유파싱
10.1결정형상향식파싱
10.2모호성
10.3가중치가있는문맥자유문법
10.4가중치가있는문맥자유문법학습하기
10.5문법보정
10.6문맥자유파싱을너머

11장.의존파싱
11.1의존문법
11.2그래프기반의존파싱
11.3전이기반의존파싱
11.4응용

12장.논리적의미론
12.1의미와표기
12.2의미의논리적표현
12.3의미파싱과람다대수
12.4의미파서학습하기

13장.술어인자의미론
13.1의미역할
13.2의미역할라벨링
13.3추상의미표현

14장.분포의미와분산의미
14.1분포가설
14.2단어표현을위한디자인결정
14.3잠재의미분석
14.4브라운군집
14.5뉴럴단어임베딩
14.6단어임베딩평가하기
14.7분포통계량너머의분포된표현
14.8다중단어단위의분포된표현

15장.참조해결
15.1참조표현의형태
15.2상호참조해결을위한알고리듬
15.3상호참조해결표현하기
15.4상호참조해결평가하기

16장.담화
16.1분절
16.2개체와언급
16.3관계

17장.정보추출
17.1개체
17.2관계
17.3사건
17.4헤지,부정,가정
17.5질의응답과기계독해

18장.기계번역
18.1기계번역작업
18.2통계적기계번역
18.3뉴럴기계번역
18.4디코딩
18.5평가지표훈련

19장.텍스트생성
19.1데이터를통한텍스트생성
19.2텍스트를통한텍스트생성
19.3대화

부록A.확률
A.1사건조합의확률
A.2조건부확률과베이즈규칙
A.3독립
A.4확률변수
A.5기댓값
A.6모델링과추정

부록B.수치최적화
B.1경사하강
B.2제약조건이있는최적화
B.3예시:수동적-능동적온라인학습

출판사 서평

◈이책에서다루는내용◈

이책은자연어처리의다양한핵심개념을다룬다.자연어처리작업을위한수많은문제는다음의여러방법을사용해해결할수있다.

◆탐색:비터비탐색,CKY알고리듬,스패닝트리,이동감소,정수선형프로그래밍,빔탐색
◆학습:최대우도추정,로지스틱회귀,퍼셉트론,기댓값-최대화,행렬분해,역전파

이책에서는이러한방법들이어떻게동작하는지설명하고,광범위한자연어처리작업에어떻게적용할수있을지다뤄본다.또한문서분류,단어의미모호성,품사태깅,개체명인식,파싱,상호참조해결,관계추출,담화분석,언어모델링,기계번역등과같은여러자연어처리작업에대해서함께다룬다.

◈이책의대상독자◈

어느정도소프트웨어지식이있는엔지니어와대학원생수준이상의연구자들에게적합한책이다.각장은서로독립돼있지만어느순간자연스레통합되도록구성됐다.필요한부분만찾아서읽어도좋고,전체를하나씩훑으며큰줄기를잡는것도좋다.

◈이책의구성◈

기본적인내용을익힌후,다음의4개주요영역을다룬다.
◆학습:다른섹션에서사용되는여러머신러닝툴을만들어볼것이다.머신러닝에초점을맞춰서설명하기때문에텍스트표현이나언어학적인현상들은대부분간단하다.“bag-of-words”텍스트분류를예시모델로다룰것이다.4장에서는단어기반의텍스트분석에관해언어학적으로흥미로운응용방법을설명한다.
◆시퀀스와트리:언어를구조학적인현상에비춰설명하는섹션이다.시퀀스및트리표현과이들이만들어내는알고리듬에대해다루고이러한표현에서발생되는한계점에대해서설명한다.9장에서는유한상태오토마타(finite-stateautomata)에대해소개하고,영어구문론에서의문맥자유언어를짧게소개한다.
◆의미:형식논리에서부터뉴럴단어임베딩까지텍스트를통해의미를표현하고,계산하기위한내용을다룬다.의미론과밀접하게관련있는참조모호성을해결하기위한방법과담화구조에서의다문장분석에대한두가지주제등을다룬다.
◆응용:자연어처리에대한주요한응용문제인정보추출,기계번역,텍스트생성에대해설명한다.각장에서뉴럴어텐션과같은방법을소개하면서이책의앞부분에서구축한형식과방법을사용해가장잘알려진시스템중일부를설명한다.

◈옮긴이의말◈

공부하던강의(NLP224n)에서이책을처음만난후로,실무를하다가이해안가는부분을찾아보며일주일동안다섯번정도이책과저자가쓴글을마주했을때느꼈던운명같은느낌을아직도간직하고있습니다.그러고나서운이좋게도이책을번역할기회가주어졌을때는운명이지않을까생각했습니다.
어느책이나번역하는일은항상하늘이내린일이라고생각하지만,자연어책을참고하며번역하는일은더욱숙명적이고도어려운일이었습니다.실력이부족한점도없지않아있었겠지만익숙하지않은언어학적인관점을충분히이해하고번역해야하기때문입니다.모국어도언어학적인관점에서보는한글과실제로사용하는한국어가다릅니다.또한글로쓰인수필,소설,에세이,기사등의문장에서느껴지는작은묘미를독자들은크게느끼지만,짧은문장에도숨겨진문법성의의미와언어학적의미를살려서번역하는것은정말힘든일이었습니다.
이책은자연어처리의정석이라고도할수있는교과서스타일의책입니다.한국어로잘설명된교과서를보는것도상당한에너지가필요하고,시작하기전마음을다잡아야하는데이런어려운면면을다가진책이라니,이책을펼쳐든독자들도앞으로의길이쉽지않으리라생각합니다.
하지만확언하건대이책은자연어처리에관한가장탁월하게설명하며,끝까지읽으면실력을굉장히향상시켜줄것입니다.실력이어느정도쌓인후,실무에적용하는수준이되고나면각각으로쪼개져있는지식의양을더넓히는동시에합칠줄알아야한다고생각합니다.또알고있는지식사이에듬성듬성나있는구멍을메워야하는시기가온다고생각합니다.그런과정에있다면이책은최고의책입니다.자연어처리분야의일부만연구했더라도,word2vec과BERT를사용하며실무의한부분에만익숙하더라도,20년전의검색엔진분석을위한텍스트파싱에만익숙한모든분께더넓은시야와깊은지식을얻을수있는책이리라확신합니다.