자연어 처리 쿡북 with 파이썬 (파이썬으로 NLP를 구현하는 60여 가지 레시피)

자연어 처리 쿡북 with 파이썬 (파이썬으로 NLP를 구현하는 60여 가지 레시피)

$30.45
Description
최고의 플랫폼인 파이썬과 자연어 툴킷(NLTK)을 이용해 자연어 처리(NLP)를 수행하는 다양한 방법을 알려주는 독창적인 레시피가 담긴 책이다. 자연어 이해(NLU), 자연어 처리, 구문 분석 등 다양한 주제를 포함해 자연어를 다루는 데 사용할 수 있는 60여 개의 레시피를 접할 수 있다. 자연어 처리에 입문하면서 궁금한 부분이 생기면 레시피를 찾아보듯이 필요한 부분을 꺼내볼 수 있게 구성했다. 실용적인 감정 분석부터 최신 딥러닝 기술의 적용 방법까지 배울 수 있다. 이 책을 마치면 파이썬으로 NLP를 구현하는 데 필요한 모든 지식을 얻게 될 것이다.
저자

크리슈나바브사

서비스업,은행업,헬스케어등과같은다양한산업영역에서10년간근무하며자연어처리,소셜미디어분석,텍스트마이닝작업을했다.StanfordCoreNLP,IBM의SystemText와BigInsights,GATE,NLTK와같은다양한NLP라이브러리에서텍스트분석과관련된산업문제를해결하기위해연구했다.또한유명TV프로그램과인기있는리테일브랜드와제품에대한소셜미디어반응을분석하는일을하고있다.2010년NAACL에서감정분석기술에관한논문을발표했다.최근에NLP파이프라인/툴세트를만들어대중에게오픈소스로공개했다.학문과기술외에도오토바이와축구에대해열정을지니고있다.여가시간에는여행하고탐험하는것을좋아한다.오토바이로인도를일주하고배낭여행으로동남아시아와유럽의대부분의국가를여행했다.

목차

1장.말뭉치와워드넷
__소개
__내장말뭉치액세스
__외부말뭉치다운로드,로드하고액세스하기
__브라운코퍼스에서세가지장르의wh단어모두세기
__웹및채팅텍스트자료파일중하나에서빈도분포작업탐색
__모호한단어를가지고워드넷을사용해모든의미탐구
__두개의구별되는동의어집합을선택하고워드넷을사용해상위어와하위어개념탐색
__워드넷으로명사,동사,형용사,부사의다의어평균계산

2장.처리전텍스트,소싱,정규화
__소개
__문자열연산의중요성
__문자열연산심화
__파이썬에서PDF파일읽기
__파이썬에서워드문서읽기
__PDF,DOCX,일반텍스트파일을가져와사용자정의말뭉치생성
__RSS피드에서내용읽기
__BeautifulSoup를사용한HTML파싱

3장.전처리
__소개
__토큰화-NLTK내장토크나이저사용법
__스테밍-NLTK내장스테머사용법
__원형복원-NLTKWordnetLemmatizer사용법
__불용어-불용어말뭉치사용법과불용어가만들어내는차이점확인
__편집거리-두문자열간의편집거리를찾기위한알고리즘작성
__두단문처리와둘사이의공통어휘추출

4장.정규표현식
__소개
__정규표현식-*,+,?사용법
__정규표현식-$와^,단어의시작과끝이아닌단어를사용하는방법
__여러개의리터럴문자열과하위문자열검색
__날짜정규표현식과문자집합또는문자범위집합만들기
__문장에서모든다섯글자단어를찾고약어만들기
__자체정규식토크나이저작성법
__자체정규식스테머작성법

5장.품사태깅과문법
__소개
__내장태거탐구
__자체태거작성
__자체태거학습
__자체문법작성학습
__확률적문맥무관문법-CFG작성
__재귀CFG작성

6장.청킹,문장구문분석,의존성
__소개
__내장청커사용
__간단한청커작성
__청커학습
__재귀하향구문분석
__시프트변환구문분석
__의존문법과투사의존성구문분석
__차트구문분석

7장.정보추출과텍스트분류
__소개
__내장개체명인식기능사용
__딕셔너리생성,반전,사용
__피처셋선택
__분류기를사용한문장분할
__문서분류
__문맥기반품사태거작성

8장.고급NLP레시피
__소개
__NLP파이프라인생성
__텍스트유사도문제해결
__주제식별
__텍스트요약
__대용어해결
__단어의미명확화
__감정분석수행
__고급감정분석탐색
__대화형비서또는챗봇만들기

9장.NLP의딥러닝적용
__소개
__TF-IDF생성후심층신경망을이용한이메일분류
__합성곱망CNN1D를이용한IMDB감정분류
__양방향LSTM을이용한IMDB감정분류
__신경단어벡터시각화를사용해고차원의단어를2차원으로시각화

10장.NLP분야에서딥러닝의고급응용
__소개
__LSTM을사용해셰익스피어의저서에서고급자동텍스트생성
__메모리네트워크를사용해에피소드데이터에대한질의응답
__순환신경망을사용해다음단어를예측하는언어모델링-LSTM
__딥러닝순환망을사용하는생성챗봇개발-LSTM

출판사 서평

★이책에서다루는내용★

■NLTK에서사용할수있는다양한말뭉치탐색과워드넷말뭉치사용법
■HTML,RSS,PDF,워드문서등과같은원시텍스트관리와처리
■토큰화,형태소분석,철자검사기등과같은기술을사용해원시텍스트를전처리하는방법과정규표현식을사용한구현
■정규표현식을사용한텍스트분석의패턴일치기본사항
■품사태거와문법을사용해직접만드는방법
■개체명(NE)추출방법과RD,시프트감소,차트파서등의파서
■LSTM을사용한셰익스피어소설에서의텍스트생성
■BABI데이터셋과LSTM을사용한에피소드모델링
■딥러닝을통해생성(generative)방식으로개발하는챗봇

★이책의대상독자★

NLP를사용해고급텍스트분석을구현하고자기존기술을업그레이드하려는데이터과학자,데이터분석가를대상으로한다.자연어처리에대한몇가지기본지식이있으면좋다.

★이책의구성★

1장,'말뭉치와워드넷'에서는NLTK에서기본제공하는말뭉치와빈도분포에접근하는방법을소개한다.워드넷이무엇인지알아보고그기능과사용법을탐구할것이다.
2장,'원시텍스트,소싱,정규화'에서는다양한형식의데이터소스에서텍스트를추출하는방법을보여준다.웹상에서원시텍스트를추출하는방법도배우게된다.이러한이질적인소스로부터원시텍스트를정규화하고,텍스트를말뭉치로조직화할것이다.
3장,'전처리'에서는토큰화,스테밍,원형복원,편집거리와같이몇가지중요한사전처리단계를소개한다.
4장,'정규표현식'에서는가장기본적이고간단하지만가장중요하면서강력한도구중하나를다룬다.텍스트분석을수행하는방법으로패턴매칭의개념을배우게되며,이를위해정규표현식보다더좋은도구는없다.
5장,'품사태깅과문법'에서는품사태깅은구문분석의기초를형성하며문법은품사태그및청크를사용해형성되고변형될수있다.자체품사태거및문법을사용하고또작성하는법을배운다.
6장,'청킹,문장구문분석,의존성'에서는기본제공청커를사용하는방법을배우고자체청커(의존성파서)를학습/작성하는데도움을준다.훈련된모델을평가하는방법을배우게된다.
7장,'정보추출과텍스트분류'에서는개체명인식에대해자세히알려준다.내장된개체명을사용하거나딕셔너리를사용해개체명을생성할것이다.기본제공되는텍스트분류알고리즘과애플리케이션주변의간단한레시피를사용하는방법을배워보자.
8장,'고급NLP레시피'에서는지금까지모든수업을결합하고실제응용문제에쉽게적용할수있는응용가능한레시피를만드는방법에관한것이다.텍스트유사도,요약,감정분석,표현합성,대용어처리등과같은레시피를작성한다.
9장,'NLP에서의딥러닝적용'에서는이메일분류,CNN및LSTM의감정분류,마지막으로저차원공간에서의고차원단어시각화와같은NLP문제의애플리케이션을사용하는딥러닝에필요한다양한기본적인사항을전달한다.
10장,'NLP분야에서딥러닝의고급응용'에서는딥러닝을이용한최첨단문제해결방법을설명한다.단편적인사건들로이뤄진데이터에대한답변,다음최상의단어를예측하기위한언어모델링그리고생성기법을사용하는챗봇(chatbot)개발을포함한다.

[역자의말]

이책의원제는『NaturalLanguageProcessingwithPythonCookbook』이다.제목에서알수있듯이파이썬보다는자연어처리에초점맞춰져,파이썬은도구로사용하는셈이다.파이썬은다양한라이브러리가잘갖춰져있어텐서플로(TensorFlow)를비롯한‘딥러닝’용언어로주목받는것은물론,프로그래밍초보자나학생들의코딩입문용에이르기까지전천후로쓰이는언어다.바꿔말해,자연어처리를배우기에적합한언어인것이다.파이썬언어의문법을모르더라도책에나오는레시피를차근차근따라해보며동작원리를파악할수있지만,구문(syntax)을세세하게설명하지않으므로파이썬의기본적인이해는필요하다.만약파이썬을처음접한다면입문서를읽어보거나간단한강의를먼저경험해볼것을추천한다.
이책은짤막한레시피형태의구성으로언제든필요한부분을펼쳐볼수있게돼있다.다만이전레시피가다음레시피에활용되는경우가많으니처음한번은순서대로읽어보고,이후코드실습과함께원하는부분을다시찾아볼것을권한다.이책에서는자연어처리와관련된전반적인영역에걸쳐부품이자재료들을제공하고있으니,두가지혹은그이상의레시피를다양한방식으로조합한다면다채로운애플리케이션을만들어볼수있을것이다.
번역과관련해한마디덧붙인다면항상용어의선택이가장어렵다.실무현장에서는갈수록대부분의IT용어와프로그래밍용어가원어(영어)그대로쓰이는듯하다.딥러닝을심층학습이라고부르지않는것이한예다.그렇지만NLP는‘자연언어처리’라는고유영역이있어이분야에서통용되는우리말이있는경우는우리말로옮겼다.가령‘POSpartofspeech’는품사로통일했고‘corpus’,‘copora’는‘코퍼스’가아니라‘말뭉치’로적었다.단,‘브라운코퍼스’와같이고유명사처럼쓰이는단어만일부예외를뒀음을참고하길바란다.