파이썬 텍스트 마이닝 완벽 가이드 : 자연어 처리 기초부터 딥러닝 기반 BERT와 트랜스포머까지 (개정판)

파이썬 텍스트 마이닝 완벽 가이드 : 자연어 처리 기초부터 딥러닝 기반 BERT와 트랜스포머까지 (개정판)

$30.61
Description
텍스트 마이닝에는 자연어 처리, 통계, 딥러닝 기법에 대해 많은 지식이 필요하지만, 이론적인 내용에 얽매이다 보면 정작 구현은 너무 먼 이야기가 되어 버리기 쉽다.

이 책에서는 실무에 바로 적용할 수 있는 실전적인 예제를 중심으로 텍스트 마이닝을 설명한다. 특히 초보자를 위해 텍스트 전처리 과정의 개념과 다양하고 상세한 활용방법을 기초부터 설명한다. 문서 분류와 감성 분석 같은 텍스트 마이닝 작업을 대상으로 다양한 머신러닝 기법을 사용하는 예를 보여주며, 차원을 축소하고 결과를 시각화하는 방법, 토픽 모델링을 수행하고 토픽 트렌드를 구해서 시각화하는 방법을 설명한다.

기본적인 딥러닝 기법을 이용한 문서 분류 외에, 최근 많이 사용되는 BERT를 이용한 미세조정학습까지 포함한다. 또, 사전학습 언어모델에 대한 관심이 높아짐에 따라, 사전학습 언어모델의 이론적 내용과 다양한 트랜스포머 변형 모형을 설명한다. 그리고 트랜스포머 모형을 활용한 문서 요약, 질의 응답의 실습과 미세조정학습을 추가했다. 더불어 한국어 문서 분석에 자신을 갖도록 대부분의 장에 관련 예제를 충분히 다뤘다.

저자

박상언,강주영

저자:박상언
2007년3월부터경기대학교경영정보전공교수로재직하고있으며,주요관심분야는텍스트마이닝,머신러닝,딥러닝등이다.KAIST에서전산학학사,경영공학석사와박사학위를취득했다.

저자:강주영
2005년9월부터아주대학교e-비즈니스학과교수로재직하고있으며,주요관심분야는빅데이터,텍스트마이닝,지능정보시스템,블록체인등이다.포항공대에서컴퓨터공학학사,서울대에서컴퓨터공학석사,KAIST에서경영공학박사학위를취득했다.현재아주대경영빅데이터센터장,한국빅데이터학회지편집위원장,한국지능정보학회부회장을역임하며,빅데이터및텍스트마이닝분야관련프로젝트,자문및연구를수행한다.

목차

[1부]텍스트마이닝기초

▣01장:텍스트마이닝기초
1.1텍스트마이닝의정의
1.2텍스트마이닝패러다임의변화
___1.2.1카운트기반의문서표현
___1.2.2시퀀스기반의문서표현
1.3텍스트마이닝에필요한지식과도구
___1.3.1자연어처리기법
___1.3.2통계학과선형대수
___1.3.3시각화기법
___1.3.4머신러닝
___1.3.5딥러닝
1.4텍스트마이닝의주요적용분야
___1.4.1문서분류
___1.4.2문서생성
___1.4.3문서요약
___1.4.4질의응답
___1.4.5기계번역
___1.4.6토픽모델링
1.5이책의실습환경과사용소프트웨어
___1.5.1기본실습환경
___1.5.2자연어처리관련라이브러리
___1.5.3머신러닝관련라이브러리
___1.5.4딥러닝관련라이브러리

▣02장:텍스트전처리
2.1텍스트전처리의개념
___2.1.1왜전처리가필요한가?
___2.1.2전처리의단계
___2.1.3실습구성
2.2토큰화
___2.2.1문장토큰화
___2.2.2단어토큰화
___2.2.3정규표현식을이용한토큰화
___2.2.4노이즈와불용어제거
2.3정규화
___2.3.1어간추출
___2.3.2표제어추출
2.4품사태깅
___2.4.1품사의이해
___2.4.2NLTK를활용한품사태깅
___2.4.3한글형태소분석과품사태깅
___2.4.4참고자료

▣03장:그래프와워드클라우드
3.1단어빈도그래프-많이쓰인단어는?
3.2워드클라우드로내용을한눈에보기
3.3한국어문서에대한그래프와워드클라우드

[2부]BOW기반의텍스트마이닝

▣04장:카운트기반의문서표현
4.1카운트기반문서표현의개념
4.2BOW기반의카운트벡터생성
4.3사이킷런으로카운트벡터생성
4.4한국어텍스트의카운트벡터변환
___4.4.1데이터다운로드
4.5카운트벡터의활용
4.6TF-IDF로성능을높여보자

▣05장:BOW기반의문서분류
5.120뉴스그룹데이터준비및특성추출
___5.1.1데이터셋확인및분리
___5.1.2카운트기반특성추출
5.2머신러닝과문서분류과정에대한이해
5.3나이브베이즈분류기를이용한문서분류
5.4로지스틱회귀분석을이용한문서분류
___5.4.1릿지회귀를이용한과적합방지
___5.4.2라쏘회귀를이용한특성선택
5.5결정트리등을이용한기타문서분류방법
5.6성능을높이는방법
5.7카운트기반의문제점과N-gram을이용한보완
___5.7.1통계로는알수없는문맥정보
___5.7.2N-gram의이해
___5.7.3N-gram을이용한문서분류
5.8한국어문서의분류
___5.8.1다음영화리뷰에대한영화제목예측
___5.8.2성능을개선하기위한노력

▣06장:차원축소
6.1차원의저주와차원축소의이유
6.2PCA를이용한차원축소
6.3LSA를이용한차원축소와의미파악
___6.3.1LSA를이용한차원축소와성능
___6.3.2LSA를이용한의미기반의문서간유사도계산
___6.3.3잠재된토픽의분석
___6.3.4단어간의미유사도분석
6.4tSNE를이용한시각화와차원축소의효과

▣07장:토픽모델링으로주제찾기
7.1토픽모델링과LDA의이해
___7.1.1토픽모델링이란?
___7.1.2LDA모형의구조
___7.1.3모형의평가와적절한토픽수의결정
7.2사이킷런을이용한토픽모델링
___7.2.1데이터준비
___7.2.2LDA토픽모델링실행
___7.2.3최적의토픽수선택하기
7.3Gensim을이용한토픽모델링
___7.3.1Gensim사용법과시각화
___7.3.2혼란도와토픽응집도를이용한최적값선택
7.4토픽트렌드로시간에따른주제의변화알아내기
7.5동적토픽모델링

▣08장:감성분석
8.1감성분석의이해
___8.1.1어휘기반의감성분석
___8.1.2머신러닝기반의감성분석
8.2감성사전을이용한영화리뷰감성분석
___8.2.1NLTK영화리뷰데이터준비
___8.2.2TextBlob을이용한감성분석
___8.2.3AFINN을이용한감성분석
___8.2.4VADER를이용한감성분석
8.3학습을통한머신러닝기반의감성분석
___8.3.1NLTK영화리뷰에대한머신러닝기반감성분석
___8.3.2다음영화리뷰에대한머신러닝기반감성분석
8.4참고문헌

▣09장:인공신경망과딥러닝의이해
9.1인공신경망의이해
___9.1.1인공신경망의구조와구성요소
___9.1.2인공신경망에서의학습
___9.1.3손실함수의이해
___9.1.4경사하강법
9.2딥러닝의이해
___9.2.1딥러닝이란?
___9.2.2층이깊은신경망의문제점
___9.2.3딥러닝에서의해결방안
___9.2.4다양한딥러닝알고리즘
___9.2.5딥러닝개발및활용환경

[3부]텍스트마이닝을위한딥러닝기법

▣10장:RNN-딥러닝을이용한문서분류
10.1왜RNN일까?
___10.1.1RNN의이해
___10.1.2RNN이문서분류에적합한이유
___10.1.3RNN의문서분류적용방안
10.2워드임베딩의이해
___10.2.1워드임베딩이란?
___10.2.2BOW와문서임베딩
___10.2.3워드임베딩과딥러닝
10.3RNN을이용한문서분류-NLTK영화리뷰감성분석
___10.3.1워드임베딩을위한데이터준비
___10.3.2RNN이아닌일반적인신경망모형을이용한분류
___10.3.3문서의순서정보를활용하는RNN기반문서분류
10.4LSTM,Bi-LSTM과GRU를이용한성능개선

▣11장:Word2Vec,ELMo,Doc2Vec의이해
11.1Word2Vec-대표적인워드임베딩기법
___11.1.1Word2Vec학습의원리
___11.1.2Word2Vec활용-학습된모형가져오기
___11.1.3FastText-워드임베딩에N-gram적용
11.2ELMo-문맥에따른단어의미의구분
___11.2.1Word2Vec의문제점
___11.2.2ELMo의구조
11.3Doc2Vec-문맥을고려한문서임베딩

▣12장:CNN-이미지분류를응용한문서분류
12.1CNN의등장과작동원리
12.2CNN을이용한문서분류
__12.2.1CNN을이용한문서분류의원리
__12.2.2CNN을이용한NLTK영화리뷰분류

▣13장:어텐션(Attention)과트랜스포머
13.1Seq2seq:번역에서시작한딥러닝기법
13.2어텐션을이용한성능의향상
13.3셀프어텐션(Self-attention)과트랜스포머
___13.3.1셀프어텐션의이해
___13.3.2트랜스포머의구조
___13.3.3인코더의셀프어텐션원리
___13.3.4디코더의작동원리

▣14장:BERT의이해와간단한활용
14.1왜언어모델이중요한가?
14.2사전학습언어모델의이론적이해
14.3BERT의구조
14.4언어모델을이용한사전학습과미세조정학습
14.5사전학습된BERT모형의직접사용방법
14.6자동클래스를이용한토크나이저와모형의사용

▣15장:BERT사전학습모형에대한미세조정학습
15.1BERT학습을위한전처리
15.2트랜스포머의트레이너를이용한미세조정학습
15.3파이토치를이용한미세조정학습

▣16장:한국어문서에대한BERT활용
16.1다중언어BERT사전학습모형의미세조정학습
16.2KoBERT사전학습모형에대한파이토치미세조정학습

▣17장:트랜스포머변형모형의현황
17.1트랜스포머변형모형의다양한토크나이저
__17.1.1BPE(Byte-PairEncoding)토크나이저
__17.1.2워드피스(WordPiece)토크나이저
__17.1.3센텐스피스(SentencePiece)유니그램토크나이저
__17.2GPT기반트랜스포머변형모형
__17.2.1GPT-2
__17.2.2GPT-3
__17.2.3ChatGPT
17.3BERT기반트랜스포머변형모형
__17.3.1RoBERTa(RobustlyOptimizedBERTPretrainingApproach)
__17.3.2ALBERT(ALiteBERT)
__17.3.3ELECTRA(EfficientlyLearninganEncoderthatClassifiesTokenReplacementsAccurately)
17.4인코더와디코더를모두사용하는트랜스포머변형모형
__17.4.1BART(BidirectionalandAuto-RegressiveTransformers)
__17.4.2T5(Text-to-TextTransferTransformer)
17.5국내트랜스포머변형모형현황

▣18장:트랜스포머모형을이용한문서요약
18.1문서요약의이해
__18.1.1문서요약성능지표:ROUGE
__18.1.2문서요약데이터셋과트랜스포머변형모형
18.2파이프라인을이용한문서요약
18.3T5모형과자동클래스를이용한문서요약
18.4T5모형과트레이너를이용한미세조정학습
18.5한글문서요약

▣19장:트랜스포머모형을이용한질의응답
19.1질의응답시스템의이해
19.2파이프라인을이용한질의응답
19.3자동클래스를이용한질의응답
19.4트레이너를이용한질의응답미세조정학습
19.5한글질의응답

출판사 서평

★이책에서다루는내용★

◎토큰화,어간추출,표제어추출,불용어처리,품사태깅과같은텍스트전처리기법
◎단어빈도그래프,워드클라우드그리기
◎카운트벡터,TF-IDF벡터로문서를변환하고,문서간유사도구하기
◎다양한머신러닝/딥러닝기법으로문서분류와감성분석수행
◎KoNLPy를이용해한국어문서를변환하고다양한머신러닝알고리즘으로분석
◎문서벡터의차원축소,LDA토픽모델링,동적토픽모델링,토픽트렌드를구하고시각화
◎Word2Vec,ELMo와같은워드임베딩기법과Doc2Vec의이해
◎BERT의이해와활용,파이토치를이용한미세조정학습의실습,한국어문서에대한BERT사용법실습
◎사전학습언어모델과GPT-2,GPT-3,chatGPT,RoBERTa,ALBERT,ELECTRA,BART,T5등다양한트랜스포머변형모형의이해
◎T5,KoBART,DistilBERT,KoELECTRA등의트랜스포머모형을이용한문서요약과질의응답실습