예제로 배우는 자연어 처리 기초 (NLP 알고리즘, 텍스트 분류와 요약, 감성 분석)

예제로 배우는 자연어 처리 기초 (NLP 알고리즘, 텍스트 분류와 요약, 감성 분석)

$36.10
Description
자연어 처리 분야에 입문할 때 필요한 기본기를 닦는 데 많은 도움을 주는 책이다. 텍스트 데이터를 수집하고 전처리하는 과정을 알아보고, 다양한 자연어 처리 알고리즘과 시각화를 적용해 텍스트 데이터에 내재된 지식을 추출하는 방법을 다룬다. 자연어 처리 과정에서 자주 활용하는 SpaCy, 젠심(Gensim)과 같은 라이브러리를 학습해, 실무에서 적용할 수 있는 애플리케이션을 개발할 수 있는 초석을 마련해 줄 것이다.
저자

쇼홈고시

자연어처리분야의전문지식을갖춘열정적인‘데이터탐정(datadetective)’이다.여러국제학회와저널에서다수의논문을발표했다.

목차

1장.자연어처리소개
__소개
__NLP의역사
__텍스트분석과NLP
____예제1:기본적인텍스트분석
__NLP의다양한단계
____토큰화
____예제2:단순문장의토큰화
____PoS태깅
____예제3:PoS태깅
____불용어제거
____예제4:불용어제거
____텍스트정규화
____예제5:텍스트정규화
____철자수정
____예제6:단어및문장철자수정
____어간추출
____예제7:어간추출
____표제어추출
____예제8:표제어추출을사용해기본단어추출
____NER
____예제9:개체명취급
____단어중의성해결
____예제10:단어중의성해결
____문장경계인식
____예제11:문장경계인식
____실습1:원시텍스트전처리
__NLP프로젝트활성화
____데이터수집
____데이터전처리
____피처추출
____모델개발
____모델평가
____모델배포
__요약

2장.기본적인피처추출방법
__소개
__데이터타입
____구조기반데이터분류
____내용기반데이터의범주화
__텍스트데이터정제
____토큰화
____예제12:텍스트정제와토큰화
____예제13:n-그램추출
____예제14:다른패키지로텍스트토큰화-케라스와TextBlob
____토크나이저의종류
____예제15:다양한토크나이저를사용한텍스트토큰화
____토큰화의이슈들
____어간추출
____RegexpStemmer
____예제16:RegexpStemmer를사용해진행형형태의단어를기본단어로변환
____포터형태소분석기
____예제17:포터형태소분석기
____표제어추출
____예제18:표제어추출
____예제19:단어의단수화와복수화
____언어번역
____예제20:언어번역
____불용어제거
____예제21:불용어제거
__텍스트로부터피처추출
____원시텍스트에서일반적인피처추출
____예제22:원시텍스트에서일반적인피처추출
____실습2:텍스트에서일반적인피처추출하기
____단어모음
____예제23:BoW생성
____지프의법칙
____예제24:지프의법칙
____TF-IDF
____예제25:TF-IDF표현
____실습3:텍스트에서특수한피처추출하기
__피처엔지니어링
____예제26:피처엔지니어링(텍스트유사도)
____단어구름
____예제27:단어구름
____다른시각화방법들
____예제28:다양한시각화(종속구문분석트리와개체명)
____실습4:텍스트시각화
__요약

3장.텍스트분류기개발
__소개
__머신러닝
____비지도학습
____계층적군집화
____예제29:계층적군집화
____K-평균군집화
____예제30:K-평균군집화
____지도학습
____분류
____로지스틱회귀
____나이브베이즈분류기
____K-최근접이웃
____예제31:텍스트분류(로지스틱회귀,나이브베이즈,KNN)
____회귀
____선형회귀
____예제32:텍스트데이터를사용한회귀분석
____트리기반방법
____랜덤포레스트
____GBM과XGBoost
____예제33:트리기반방법(의사결정트리,랜덤포레스트,GBM,XGBoost)
____샘플링
____예제34:샘플링(단순무작위추출법,층화추출법,다단계추출법)
__텍스트분류기개발
____피처추출
____피처엔지니어링
____상호연관된피처제거
____예제35:높은상관관계피처들제거(토큰)
____차원축소
____예제36:차원축소(PCA)
____모델유형결정
____모델성능평가
____예제37:RMSE와MAPE계산
____실습5:엔드투엔드텍스트분류기개발
__NLP프로젝트를위한파이프라인구축
____예제38:NLP프로젝트를위한파이프라인구축
__모델저장및불러오기
____예제39:모델저장및불러오기
__요약

4장.웹에서텍스트데이터수집하기
__소개
__웹페이지를스크래핑해데이터수집하기
____예제40:HTML파일에서태그기반정보추출하기
__웹페이지에서내용불러오기
____예제41:온라인텍스트데이터수집
____예제42:주피터노트북의내용분석하기(HTML형식)
____실습6:온라인HTML페이지에서정보추출하기
____실습7:정규표현식을사용해데이터추출및분석하기
__준정형데이터다루기
____JSON
____예제43:JSON파일다루기
____실습8:온라인JSON파일다루기
____XML
____예제44:로컬에있는XML파일다루기
____API를사용해실시간데이터불러오기
____예제45:API를사용한데이터수집
____API생성
____실습9:트위터에서데이터추출하기
____로컬파일에서데이터추출하기
____예제46:로컬파일에서데이터추출하기
____예제47:로컬파일에다양한작업수행
__요약

5장.토픽모델링
__소개
__토픽찾기
____테마찾기
____탐색적데이터분석
____문서군집화
____차원축소
____역사분석
____단어모음
__토픽모델링알고리즘
____잠재의미분석
____LSA-동작방식
____예제48:잠재의미분석을활용한로이터뉴스기사분석
____잠재디리클레할당
____LDA동작방식
____예제49:항공사트윗에있는토픽
____토픽핑거프린팅
____예제50:토픽벡터를사용한문서시각화
____실습10:제퍼디질문에대한토픽모델링
__요약

6장.텍스트요약과텍스트생성
__소개
__자동텍스트요약이란?
____자동텍스트요약의이점
__텍스트요약의고수준뷰
____목적
____입력
____출력
____추출적텍스트요약
____추상적텍스트요약
____시퀀스투시퀀스
____인코더-디코더
__TextRank
____예제51:TextRank기초
__젠심을사용한텍스트요약
____실습11:젠심텍스트요약기를사용해다운로드한페이지요약하기
__단어빈도를이용한텍스트요약
____예제52:단어빈도수텍스트요약
__마르코프체인을사용한텍스트생성
____마르코프체인
____예제53:마르코프체인을사용한텍스트생성
__요약

7장.벡터표현
__소개
__벡터정의
__벡터표현을사용하는이유
____인코딩
____문자수준인코딩
____예제54:ASCII값을사용한문자인코딩
____예제55:넘파이배열을사용한문자수준인코딩
____위치기반문자수준인코딩
____예제56:위치를사용한문자수준인코딩
____원핫인코딩
____원핫인코딩의주요단계
____예제57:문자원핫인코딩-수동적인방법
____예제58:케라스를활용한문자수준원핫인코딩
____단어수준원핫인코딩
____예제59:단어수준원핫인코딩
____단어임베딩
____Word2Vec
____예제60:단어벡터학습
____사전학습된단어벡터사용
____예제61:사전학습된단어벡터불러오기
____문서벡터
____문서벡터의활용
____예제62:영화대화를문서벡터로변환하기
____실습12:문서벡터를활용해유사한영화대사찾기
__요약

8장.감성분석
__소개
__왜감성분석이필요한가?
__감성분석의성장
____감성의수익창출
____감성의유형
____주요아이디어와용어
____감성분석의응용분야
__감성분석에사용하는도구들
____주요클라우드제공업체의NLP서비스
____온라인마켓플레이스
____파이썬NLP라이브러리
____딥러닝라이브러리
__TextBlob
____예제63:TextBlob라이브러리를사용한기본적인감성분석
____실습13:TextBlob라이브러리를사용해트윗감성분석하기
__감성분석데이터의이해
____예제64:감성분석데이터불러오기
__감성모델학습
____예제65:TF-IDF와로지스틱회귀를사용한감성모델학습
__요약

부록

출판사 서평

★이책에서다루는내용★

■데이터수집,검증,정제
■파이썬을활용한데이터분석과머신러닝작업수행
■전산언어학의기초이해
■자연어처리작업에대한일반적인모델구현
■적절한평가지표를사용한모델성능평가
■텍스트데이터에대한시각화,정량화,탐색적분석수행

★이책의대상독자★

NLP를활용한결과물을만들고자텍스트데이터를수집하고분석하려는초보자와중급수준의데이터과학자,머신러닝개발자등에게적합한책이다.파이썬에서데이터타입,함수작성,라이브러리불러오기를사용해코딩을해봤다면내용을이해하기좀더수월할것이다.언어학과확률에대한경험이있다면역시도움이되겠지만반드시필요하지는않다.

★이책의구성★
이책은파이썬코드로텍스트를불러오는매우기초적인작업부터시작해NLP에적합한형태로텍스트를정제,어간추출,토큰화하는데필요한파이프라인에따라진행된다.그런다음,가장일반적으로사용되는NLP라이브러리를사용해NLP통계적방법,벡터표현,모델작성등과같은기본기를다진다.마지막으로여러응용분야에서NLP모델과코드를사용하는실사례를다룬다.

★옮긴이의말★
CNN,RNN(LSTM,GRU)등을다양한방식으로활용하는많은연구가계속진행돼왔지만,최근트랜스포머(Transformer),ELMO,GPT,BERT등의연구를기반으로여러자연어처리태스크에서도뛰어난성능을나타내는주목할만한여러연구결과들이계속발표되고있다.
스마트폰에서사용하는여러앱이나방문하는사이트에서도챗봇을제공하는사례가점점늘어나고있으며,기업에서도매일매일쌓여가는수많은로그로부터고객의행동이나생각,소비및구매패턴,추천방안,보안이슈들을파악하고자자연어처리알고리즘을활용하고있다.
이책은다양한자연어처리알고리즘의기반이되는기초지식을다룬다.자연어처리의개념과자연어처리의과정을소개하고품사태깅,불용어처리,정규화,어간추출,표제어추출등텍스트데이터를다룰때반드시필요한기반기술을하나씩살펴본다.실무에다양한방식으로적용해볼수있는텍스트분류기를만들어보고,텍스트를수집하는데반드시필요한기술인스크래핑을소개한다.다음으로대량의문서를일일이읽지않아도문서의주제를파악할수있는토픽모델링방법을자세히다루고,활발한연구가이뤄지고있는텍스트요약및생성분야를소개한다.자연어처리분야에딥러닝을적용하는데가장중요한임베딩을소개한뒤,실무에서다양한방식으로적용해볼수있는감성분석애플리케이션을구현해본다.이책을통해자연어처리분야에입문할때반드시알아야할내용을다양한예제를구현해가면서쉽게익힐수있을것이다.