파이썬 텍스트 마이닝 완벽 가이드 : 자연어 처리 기초부터 딥러닝 기반 BERT와 트랜스포머까지 (개정판)

파이썬 텍스트 마이닝 완벽 가이드 : 자연어 처리 기초부터 딥러닝 기반 BERT와 트랜스포머까지 (개정판)

$30.61
저자

박상언,강주영

저자:박상언
2007년3월부터경기대학교경영정보전공교수로재직하고있으며,주요관심분야는텍스트마이닝,머신러닝,딥러닝등이다.KAIST에서전산학학사,경영공학석사와박사학위를취득했다.

저자:강주영
2005년9월부터아주대학교e-비즈니스학과교수로재직하고있으며,주요관심분야는빅데이터,텍스트마이닝,지능정보시스템,블록체인등이다.포항공대에서컴퓨터공학학사,서울대에서컴퓨터공학석사,KAIST에서경영공학박사학위를취득했다.현재아주대경영빅데이터센터장,한국빅데이터학회지편집위원장,한국지능정보학회부회장을역임하며,빅데이터및텍스트마이닝분야관련프로젝트,자문및연구를수행한다.

목차

[1부]텍스트마이닝기초

▣01장:텍스트마이닝기초
1.1텍스트마이닝의정의
1.2텍스트마이닝패러다임의변화
___1.2.1카운트기반의문서표현
___1.2.2시퀀스기반의문서표현
1.3텍스트마이닝에필요한지식과도구
___1.3.1자연어처리기법
___1.3.2통계학과선형대수
___1.3.3시각화기법
___1.3.4머신러닝
___1.3.5딥러닝
1.4텍스트마이닝의주요적용분야
___1.4.1문서분류
___1.4.2문서생성
___1.4.3문서요약
___1.4.4질의응답
___1.4.5기계번역
___1.4.6토픽모델링
1.5이책의실습환경과사용소프트웨어
___1.5.1기본실습환경
___1.5.2자연어처리관련라이브러리
___1.5.3머신러닝관련라이브러리
___1.5.4딥러닝관련라이브러리

▣02장:텍스트전처리
2.1텍스트전처리의개념
___2.1.1왜전처리가필요한가?
___2.1.2전처리의단계
___2.1.3실습구성
2.2토큰화
___2.2.1문장토큰화
___2.2.2단어토큰화
___2.2.3정규표현식을이용한토큰화
___2.2.4노이즈와불용어제거
2.3정규화
___2.3.1어간추출
___2.3.2표제어추출
2.4품사태깅
___2.4.1품사의이해
___2.4.2NLTK를활용한품사태깅
___2.4.3한글형태소분석과품사태깅
___2.4.4참고자료

▣03장:그래프와워드클라우드
3.1단어빈도그래프-많이쓰인단어는?
3.2워드클라우드로내용을한눈에보기
3.3한국어문서에대한그래프와워드클라우드

[2부]BOW기반의텍스트마이닝

▣04장:카운트기반의문서표현
4.1카운트기반문서표현의개념
4.2BOW기반의카운트벡터생성
4.3사이킷런으로카운트벡터생성
4.4한국어텍스트의카운트벡터변환
___4.4.1데이터다운로드
4.5카운트벡터의활용
4.6TF-IDF로성능을높여보자

▣05장:BOW기반의문서분류
5.120뉴스그룹데이터준비및특성추출
___5.1.1데이터셋확인및분리
___5.1.2카운트기반특성추출
5.2머신러닝과문서분류과정에대한이해
5.3나이브베이즈분류기를이용한문서분류
5.4로지스틱회귀분석을이용한문서분류
___5.4.1릿지회귀를이용한과적합방지
___5.4.2라쏘회귀를이용한특성선택
5.5결정트리등을이용한기타문서분류방법
5.6성능을높이는방법
5.7카운트기반의문제점과N-gram을이용한보완
___5.7.1통계로는알수없는문맥정보
___5.7.2N-gram의이해
___5.7.3N-gram을이용한문서분류
5.8한국어문서의분류
___5.8.1다음영화리뷰에대한영화제목예측
___5.8.2성능을개선하기위한노력

▣06장:차원축소
6.1차원의저주와차원축소의이유
6.2PCA를이용한차원축소
6.3LSA를이용한차원축소와의미파악
___6.3.1LSA를이용한차원축소와성능
___6.3.2LSA를이용한의미기반의문서간유사도계산
___6.3.3잠재된토픽의분석
___6.3.4단어간의미유사도분석
6.4tSNE를이용한시각화와차원축소의효과

▣07장:토픽모델링으로주제찾기
7.1토픽모델링과LDA의이해
___7.1.1토픽모델링이란?
___7.1.2LDA모형의구조
___7.1.3모형의평가와적절한토픽수의결정
7.2사이킷런을이용한토픽모델링
___7.2.1데이터준비
___7.2.2LDA토픽모델링실행
___7.2.3최적의토픽수선택하기
7.3Gensim을이용한토픽모델링
___7.3.1Gensim사용법과시각화
___7.3.2혼란도와토픽응집도를이용한최적값선택
7.4토픽트렌드로시간에따른주제의변화알아내기
7.5동적토픽모델링

▣08장:감성분석
8.1감성분석의이해
___8.1.1어휘기반의감성분석
___8.1.2머신러닝기반의감성분석
8.2감성사전을이용한영화리뷰감성분석
___8.2.1NLTK영화리뷰데이터준비
___8.2.2TextBlob을이용한감성분석
___8.2.3AFINN을이용한감성분석
___8.2.4VADER를이용한감성분석
8.3학습을통한머신러닝기반의감성분석
___8.3.1NLTK영화리뷰에대한머신러닝기반감성분석
___8.3.2다음영화리뷰에대한머신러닝기반감성분석
8.4참고문헌

▣09장:인공신경망과딥러닝의이해
9.1인공신경망의이해
___9.1.1인공신경망의구조와구성요소
___9.1.2인공신경망에서의학습
___9.1.3손실함수의이해
___9.1.4경사하강법
9.2딥러닝의이해
___9.2.1딥러닝이란?
___9.2.2층이깊은신경망의문제점
___9.2.3딥러닝에서의해결방안
___9.2.4다양한딥러닝알고리즘
___9.2.5딥러닝개발및활용환경

[3부]텍스트마이닝을위한딥러닝기법

▣10장:RNN-딥러닝을이용한문서분류
10.1왜RNN일까?
___10.1.1RNN의이해
___10.1.2RNN이문서분류에적합한이유
___10.1.3RNN의문서분류적용방안
10.2워드임베딩의이해
___10.2.1워드임베딩이란?
___10.2.2BOW와문서임베딩
___10.2.3워드임베딩과딥러닝
10.3RNN을이용한문서분류-NLTK영화리뷰감성분석
___10.3.1워드임베딩을위한데이터준비
___10.3.2RNN이아닌일반적인신경망모형을이용한분류
___10.3.3문서의순서정보를활용하는RNN기반문서분류
10.4LSTM,Bi-LSTM과GRU를이용한성능개선

▣11장:Word2Vec,ELMo,Doc2Vec의이해
11.1Word2Vec-대표적인워드임베딩기법
___11.1.1Word2Vec학습의원리
___11.1.2Word2Vec활용-학습된모형가져오기
___11.1.3FastText-워드임베딩에N-gram적용
11.2ELMo-문맥에따른단어의미의구분
___11.2.1Word2Vec의문제점
___11.2.2ELMo의구조
11.3Doc2Vec-문맥을고려한문서임베딩

▣12장:CNN-이미지분류를응용한문서분류
12.1CNN의등장과작동원리
12.2CNN을이용한문서분류
__12.2.1CNN을이용한문서분류의원리
__12.2.2CNN을이용한NLTK영화리뷰분류

▣13장:어텐션(Attention)과트랜스포머
13.1Seq2seq:번역에서시작한딥러닝기법
13.2어텐션을이용한성능의향상
13.3셀프어텐션(Self-attention)과트랜스포머
___13.3.1셀프어텐션의이해
___13.3.2트랜스포머의구조
___13.3.3인코더의셀프어텐션원리
___13.3.4디코더의작동원리

▣14장:BERT의이해와간단한활용
14.1왜언어모델이중요한가?
14.2사전학습언어모델의이론적이해
14.3BERT의구조
14.4언어모델을이용한사전학습과미세조정학습
14.5사전학습된BERT모형의직접사용방법
14.6자동클래스를이용한토크나이저와모형의사용

▣15장:BERT사전학습모형에대한미세조정학습
15.1BERT학습을위한전처리
15.2트랜스포머의트레이너를이용한미세조정학습
15.3파이토치를이용한미세조정학습

▣16장:한국어문서에대한BERT활용
16.1다중언어BERT사전학습모형의미세조정학습
16.2KoBERT사전학습모형에대한파이토치미세조정학습

▣17장:트랜스포머변형모형의현황
17.1트랜스포머변형모형의다양한토크나이저
__17.1.1BPE(Byte-PairEncoding)토크나이저
__17.1.2워드피스(WordPiece)토크나이저
__17.1.3센텐스피스(SentencePiece)유니그램토크나이저
__17.2GPT기반트랜스포머변형모형
__17.2.1GPT-2
__17.2.2GPT-3
__17.2.3ChatGPT
17.3BERT기반트랜스포머변형모형
__17.3.1RoBERTa(RobustlyOptimizedBERTPretrainingApproach)
__17.3.2ALBERT(ALiteBERT)
__17.3.3ELECTRA(EfficientlyLearninganEncoderthatClassifiesTokenReplacementsAccurately)
17.4인코더와디코더를모두사용하는트랜스포머변형모형
__17.4.1BART(BidirectionalandAuto-RegressiveTransformers)
__17.4.2T5(Text-to-TextTransferTransformer)
17.5국내트랜스포머변형모형현황

▣18장:트랜스포머모형을이용한문서요약
18.1문서요약의이해
__18.1.1문서요약성능지표:ROUGE
__18.1.2문서요약데이터셋과트랜스포머변형모형
18.2파이프라인을이용한문서요약
18.3T5모형과자동클래스를이용한문서요약
18.4T5모형과트레이너를이용한미세조정학습
18.5한글문서요약

▣19장:트랜스포머모형을이용한질의응답
19.1질의응답시스템의이해
19.2파이프라인을이용한질의응답
19.3자동클래스를이용한질의응답
19.4트레이너를이용한질의응답미세조정학습
19.5한글질의응답

출판사 서평

★이책에서다루는내용★

◎토큰화,어간추출,표제어추출,불용어처리,품사태깅과같은텍스트전처리기법
◎단어빈도그래프,워드클라우드그리기
◎카운트벡터,TF-IDF벡터로문서를변환하고,문서간유사도구하기
◎다양한머신러닝/딥러닝기법으로문서분류와감성분석수행
◎KoNLPy를이용해한국어문서를변환하고다양한머신러닝알고리즘으로분석
◎문서벡터의차원축소,LDA토픽모델링,동적토픽모델링,토픽트렌드를구하고시각화
◎Word2Vec,ELMo와같은워드임베딩기법과Doc2Vec의이해
◎BERT의이해와활용,파이토치를이용한미세조정학습의실습,한국어문서에대한BERT사용법실습
◎사전학습언어모델과GPT-2,GPT-3,chatGPT,RoBERTa,ALBERT,ELECTRA,BART,T5등다양한트랜스포머변형모형의이해
◎T5,KoBART,DistilBERT,KoELECTRA등의트랜스포머모형을이용한문서요약과질의응답실습