파이썬 텍스트 마이닝 바이블 1 : 파이썬 기초부터 트랜스포머, BERT, GPT까지

파이썬 텍스트 마이닝 바이블 1 : 파이썬 기초부터 트랜스포머, BERT, GPT까지

$45.50
저자

이상엽

연세대학교언론홍보영상학부부교수이며연세대학교인공지능대학의겸임교수로활동하고있다.파이썬코딩,빅데이터통계분석,기계학습,딥러닝,텍스트마이닝등의수업을진행하며,컴퓨테이셔널미디어랩을운영하면서사회현상과관련된온라인비정형데이터를통계방법과기계학습ㆍ딥러닝알고리즘을이용해분석하는연구를수행하고있다.연세대학교에서컴퓨터과학을공부했고,미시간주립대에서미디어ㆍ정보전공으로석사와박사학위를받았다.

목차

[1부]텍스트전처리와기초분석

▣1장:텍스트분석
1.1텍스트분석이란
1.2텍스트분석의일반적절차
1.3텍스트분석의종류

▣2장:파이썬개발환경구축하기
2.1아나콘다(Anaconda)설치
2.2주피터노트북사용방법
___2.2.1주피터노트북실행방법
___2.2.2주피터노트북의이름변경방법
___2.2.3주피터노트북종료하기
2.3구글코랩사용하기

▣3장:파이썬기본문법
3.1파이썬의기본적인구성요소:변수와함수
___3.1.1변수
___3.1.2함수
___3.1.3주석달기
3.2데이터타입
___3.2.1숫자
___3.2.2리스트
___3.2.3문자열
___3.2.4사전
___3.2.5튜플
___3.2.6집합
___3.2.7데이터타입변환
3.3if-else조건문
___3.3.1if구문
___3.3.2if-else구문:if구문의조건이만족하지않는경우에도코드실행하기
___3.3.3if-elif-else구문:여러개의조건사용하기
___3.3.4하나의구문에서여러개의조건동시사용하기
3.4for반복문
___3.4.1for반복문사용하기
___3.4.2for문에서range()함수사용하기
___3.4.3continue와break키워드사용하기
___3.4.4여러개의튜플원소의값동시에사용하기
___3.4.5enumerate()함수사용하기
___3.4.6리스트컴프리헨션
3.5while반복문
___3.5.1while반복문사용하기
___3.5.2continue와break사용하기
3.6사용자정의함수
___3.6.1사용자함수만들기
___3.6.2위치기반파라미터(Positionalparameters)
___3.6.3파라미터의이름을사용하여인자전달하기
___3.6.4파라미터의기본값설정하기
___3.6.5입력받는인자의수가정해지지않은경우
___3.6.6파라미터의이름을미리정의하지않는경우
___3.6.7lambda키워드사용하기
3.7파일읽기/쓰기(Fileinput/output)
___3.7.1파일에접근하기(또는새로운파일생성하기)
___3.7.2파일의내용읽기
___3.7.3파일에내용쓰기
___3.7.4추가모드사용하기
___3.7.5한글처리
___3.7.6with…as구문사용하기
___3.7.7대용량파일내용읽어오기
3.8모듈사용하기
___3.8.1파이썬에서기본으로제공되는모듈사용하기
___3.8.2새로운모듈설치하기
___3.8.3사용자정의모듈만들기
___3.8.4모듈에서특정함수만임포트하기
___3.8.5import키워드가모듈을찾는경로
3.9에러처리
___3.9.1에러의예
___3.9.2에러처리하기
3.10클래스
___3.10.1클래스란?
___3.10.2나만의클래스만들기
___3.10.3상속

▣4장:정규표현식
4.1패턴만들기
4.2파이썬에서정규표현식사용하기
___4.2.1특정패턴을만족하는문자열을찾는데사용되는함수들
___4.2.2패턴을만족하는문자열찾기
4.3대괄호의기능
4.4Alternation기능
4.5수량자
4.6매치되는결과그루핑하기
4.7특수기호를원래기호의의미로사용하기
4.8문자열조작하기
___4.8.1split()
___4.8.2sub()
4.9텍스트전처리에서알아두면유용한것들
___4.9.1문장간띄어쓰기가안되어있는경우
___4.9.2두문자어혹은약어를나타낼때사용하는마침표없애기
___4.9.3기호없애기
___4.9.4대문자중에서문장의첫글자만소문자로변경하기

▣5장:텍스트전처리소개
5.1텍스트전처리란?
___5.1.1전처리의주요과정
5.2영어텍스트전처리
___5.2.1불필요한기호또는표현없애기
___5.2.2대소문자통일하기
___5.2.3토큰단위로분할하기
___5.2.4단어의품사찾기
___5.2.5원하는품사의단어만선택하기
___5.2.6단어의원형(혹은줄기)찾기
___5.2.7불용어제거
5.3한글텍스트전처리하기
___5.3.1한글의형태론적특성
___5.3.2한글텍스트의전처리개요
___5.3.3불필요한기호/표현제거하기
___5.3.4형태소분석[토큰화+원형찾기+품사찾기]
___5.3.5불용어제거
___5.3.6그밖에알아둘점

▣6장:기본적인텍스트분석방법
6.1빈도분석
___6.1.1단어의출현빈도파악하기
___6.1.2워드클라우드시각화
6.2텍스트네트워크분석
___6.2.1단어들간의네트워크분석
___6.2.2네트워크분석기초
___6.2.3NetworkX를이용한네트워크분석
___6.2.4텍스트네트워크분석

[2부]기계학습을이용한텍스트분석

▣7장:확률의이해
7.1시행과사건
___7.1.1시행
___7.1.2표본공간
___7.1.3사건
7.2확률의계산
7.3확률의기본공리
7.4조건부확률
7.5조건부확률에대한연쇄법칙
7.6독립사건(Independentevents)
7.7조건부독립(conditionalindependence)
7.8전체확률의법칙
7.9베이즈공식
7.10변수
___7.10.1변수의의미
___7.10.2서로독립인변수들
7.11변수의종류
___7.11.1이산변수와연속변수의구분
___7.11.2이산변수의확률
___7.11.3이산분포의예:베르누이(Bernoulli)분포
___7.11.4연속변수의확률
___7.11.5연속분포의예:정규분포
7.12누적분포함수
7.13변수의평균,분산,공분산
___7.13.1변수의평균
___7.13.2변수의분산
___7.13.3두변수의공분산(Covariance)
7.14모멘트
7.15결합확률분포
___7.15.1두개의이산변수
___7.15.2두개의연속변수

▣8장:기계학습에대한이해
8.1기계학습이란?
8.2기계학습알고리즘의유형
___8.2.1지도학습과비지도학습알고리즘
8.3지도학습알고리즘의작동원리
___8.3.1학습에사용되는수학적모형
___8.3.2비용함수
___8.3.3비용함수를최소화하는파라미터값찾기
___8.3.4학습의결과로도출된모형을풀고자하는문제데이터에적용하기
___8.3.5모형의성능평가하기
8.4지도학습에서의과적합문제
___8.4.1과적합문제의주요원인
___8.4.2규제화방법

▣9장:문서의벡터화
9.1벡터의이해
___9.1.1벡터란?
___9.1.2공간상벡터의위치
___9.1.3유클리디안거리
___9.1.4파이썬에서벡터다루기
___9.1.5벡터의길이,norm
___9.1.6그외자주사용되는거리지표
___9.1.7코사인유사도
___9.1.8단위벡터에대한유클리디안거리
___9.1.9데이터분석에서의벡터
9.2단어의빈도정보를사용해문서를벡터로표현하기
9.3TF-IDF
9.4sklearn을이용해문서를벡터로변환하기
___9.4.1빈도정보를사용하여벡터로표현하기
___9.4.2TF-IDF정보를사용해벡터로표현하기
___9.4.3실제문서벡터화하기

▣10장:군집분석
10.1K-평균(K-Means)알고리즘
___10.1.1K-평균작동원리
___10.1.2군집의수정하기
___10.1.3파이썬코딩하기
___10.1.4군집화결과평가지표
10.2위계적군집분석
___10.2.1병합군집분석
___10.2.2군집을연결하는방법
___10.2.3파이썬코딩하기
10.3DBSCAN
___10.3.1DBSCAN알고리즘의작동원리
___10.3.2파이썬코딩하기
10.4가우시안혼합모형
___10.4.1가우시안혼합모형이란?
___10.4.2파이썬코딩하기
10.5차원축소후군집화수행하기
___10.5.1차원축소소개
___10.5.2고유분해
___10.5.3특잇값분해
___10.5.4주성분분석
___10.5.5텍스트데이터에대해주성분분석을수행한후군집화해보기

▣11장:텍스트분류:감성분석의경우
11.1로지스틱회귀모형을이용한감성분석
___11.1.1로지스틱회귀모형
___11.1.2비용함수:교차엔트로피
___11.1.3파이썬코딩하기
___11.1.4분류모형의성능평가지표
___11.1.5하이퍼파라미터튜닝(Hyperparametertuning)
___11.1.6클래스불균형문제
___11.1.7오버샘플링과언더샘플링을이용한감성분석
___11.1.8CostSensitive방법을적용한감성분석
11.2나이브베이즈
___11.2.1나이브베이즈의작동원리
___11.2.2다항나이브베이즈를이용한감성분석
___11.2.3파이썬코딩하기
11.3결정트리
___11.3.1결정트리의작동원리
___11.3.2파이썬코딩하기
11.4앙상블방법
___11.4.1배깅
___11.4.2랜덤포레스트
___11.4.3부스팅
11.5SVM
___11.5.1SVM알고리즘의기본원리
___11.5.2선형하이퍼플레인으로분리할수없는경우(Non-linearlyseparablecases)
___11.5.3SVM을이용한감성분석
11.6감성어사전기반의감성분석
___11.6.1VADER감성어사전을사용해감성분석하기

▣12장:토픽모델링
12.1LSI
___12.1.1LSI이해하기
___12.1.2gensim을이용한LSI
12.2LDA
___12.2.1디리클레분포
___12.2.2다항분포
___12.2.3LDA의이해
___12.2.4Gensim을이용한LDA수행하기
___12.2.5LDA결과를이용한문서간,단어간의유사도파악하기

▣부록A:웹스크레이핑
A.1컴퓨터통신의이해
___A.1.1브라우저의역할
A.2웹페이지를구성하는데이터의구조
A.3웹스크레이핑프로그램의역할
___A.3.1서버로부터웹페이지의소스코드다운로드하기
___A.3.2소스코드로부터원하는정보추출?저장하기
A.4파이썬을이용한웹스크레이핑의주요절차
___A.4.1URL주소를사용해해당페이지의소스코드다운로드하기
___A.4.2원하는정보를담고있는태그찾기:BeautifulSoup클래스사용하기
___A.4.3태그의속성값추출하기:get()함수사용
___A.4.4BeautifulSoup에서정규표현식사용하기
A.5추출하고자하는정보가원본소스코드에들어있지않는경우
___A.5.1네트워크검사기능을통해특정파일에접근하기
___A.5.2셀레니엄(Selenium)사용하기

▣부록B:행렬
B.1행렬이란?
B.2행렬의연산
___B.2.1행렬과스칼라간연산
___B.2.2행렬과행렬간연산
B.3행렬의종류
___B.3.1대각행렬
___B.3.2단위행렬
___B.3.3전치행렬
___B.3.4대칭행렬
B.4역행렬
___B.4.1역행렬이란?
___B.4.2역행렬의기하학적의미
___B.4.3행렬의랭크
___B.4.4역행렬을이용해연립방정식풀기

▣부록C:EM(Expectation-Maximization)알고리즘
C.1젠센부등식
C.2EM알고리즘
C.3가우시안혼합모형에다시적용해보기
___C.3.1E단계
___C.3.2M단계

▣부록D:베이지안추론
D.1베이지안(BayesianInference)추론이란?
D.2베이즈공식
D.3주요베이지안추론방법
D.4사후분포를우도와켤레사전분포를이용해직접계산하기
D.5MCMC(MarkovChainMonteCarlo)
___D.5.1메트로폴리스알고리즘
___D.5.2메트로폴리스-헤이스팅스
___D.5.3깁스샘플링(GibbsSampling)
D.6파이썬코딩:파이썬을이용한베이지안추론
D.7위계적모형(Hierarchicalmodel)소개

출판사 서평

★이책에서다루는내용★

◎파이썬기초,웹스크레이핑,정규표현식
◎기본수학:선형대수,확률,MLE,EM알고리즘,베이지안추론등
◎텍스트전처리와텍스트네트워크분석
◎기계학습알고리즘을활용한텍스트분석:K-평균,위계적군집분석,DBSCAN,GMM,차원◎축소,로지스틱회귀모형,나이브베이즈,결정트리,앙상블알고리즘,SVM,토픽모델링
◎딥러닝알고리즘을활용한텍스트분석:FNN,CNN,RNN,LSTM,GRU,seq2seq,Transformer,BERT와BERT기반알고리즘,GPT모형,비전트랜스포머,오토인코더