파이썬 라이브러리를 활용한 텍스트 분석 (텍스트에서 통찰을 이끌어내는 98가지 자연어 처리 전략)
Description
텍스트마다 적절한 분석 기법은 따로 있다!
당신의 경쟁력을 완성할 텍스트 분석 전략서
텍스트에서 좋은 정보를 찾는 이가 뛰어난 경쟁력을 갖춘다. 머신러닝 기반 자연어 처리 기술이 발전함에 따라 다양한 텍스트 분석 기법이 속속 등장하고 있다. 수많은 기법 중에서 어떤 방법을 언제 어떻게 사용해야 유용한 정보를 얻어낼 수 있을까? 이 책은 유엔총회 일반토의 연설문부터 트위터, 로이터 뉴스 기사 등 다양한 데이터셋을 사용하여 상황별로 가장 유용한 텍스트 분석 기법을 소개한다. 실제 모범 사례를 기반으로 상황에 맞게 설계한 텍스트 전처리 파이프라인 구축, N-그램 분석, 텍스트 벡터화 등 다양한 전략으로 텍스트 분석과 자연어 처리를 정복해보자.
저자

젠스알브레히트,싯다르트라마찬드란,크리스티안윙클러

JensAlbrecht
뉘른베르크공과대학컴퓨터공학과전임교수다.주된분야는데이터관리및분석으로,특히텍스트에중점을둔다.컴퓨터과학박사학위를받고업계에서컨설턴트및데이터설계자로10년이상일한뒤,2012년학계로돌아왔다.빅데이터관리및분석에관한여러편의글을기고했다.

목차

CHAPTER1텍스트데이터에서찾는통찰
1.1학습목표
1.2탐색적데이터분석
1.3데이터셋:유엔총회일반토의
1.4전략:팬더스로데이터개요확인
1.5전략:간단한텍스트전처리파이프라인구축
1.6단어빈도분석을위한전략
1.7전략:컨텍스트내키워드탐색
1.8전략:N-그램분석
1.9전략:시간및범주에따른빈도비교
1.10마치며

CHAPTER2API로추출하는텍스트속통찰
2.1학습목표
2.2API
2.3전략:리퀘스트모듈을이용한API호출
2.4전략:트위피를사용한트위터데이터추출
2.5마치며

CHAPTER3웹사이트스크래핑및데이터추출
3.1학습목표
3.2스크래핑및데이터추출
3.3로이터뉴스아카이브
3.4URL생성
3.5전략:robots.txt파일해석
3.6전략:sitemap.xml파일로URL획득
3.7전략:RSS에서URL획득
3.8데이터다운로드
3.9전략:파이썬을사용한HTML페이지다운로드
3.10전략:wget을사용한HTML페이지다운로드
3.11반정형데이터추출
3.12전략:정규표현식을사용한데이터추출
3.13전략:HTML파서를사용한데이터추출
3.14전략:스파이더링
3.15밀도기반텍스트추출
3.16올인원접근방식
3.17전략:스크래피를사용한로이터아카이브스크래핑
3.18스크래핑과관련된문제
3.19마치며

CHAPTER4통계및머신러닝을위한텍스트데이터준비
4.1학습목표
4.2데이터전처리파이프라인
4.3데이터셋:레딧셀프포스트
4.4텍스트데이터정리
4.5토큰화
4.6스페이시를사용한언어처리
4.7대규모데이터셋에서특성추출
4.8더알아보기
4.9마치며

CHAPTER5특성엔지니어링및구문유사성
5.1학습목표
5.2실험을위한토이데이터셋
5.3전략:자신만의벡터화객체구축
5.4단어가방모델
5.5TF-IDF모델
5.6ABC데이터셋의구문유사성
5.7마치며

CHAPTER6텍스트분류알고리즘
6.1학습목표
6.2데이터셋:JDT버그보고
6.3전략:텍스트분류시스템구축
6.4텍스트분류를위한최종코드
6.5전략:교차검증을사용한현실적인정확도메트릭추정
6.6전략:그리드검색을통한하이퍼파라미터조정
6.7텍스트분류시스템요약및결론
6.8마치며
6.9더읽어보기

CHAPTER7텍스트분류기
7.1학습목표
7.2전략:예측확률을사용한분류신뢰도결정
7.3전략:예측모델의특성중요도측정
7.4전략:LIME을사용한분류결과설명
7.5전략:ELI5를사용한분류결과설명
7.6전략:앵커를사용한분류결과설명
7.7마치며

CHAPTER8비지도학습:토픽모델링및클러스터링
8.1학습목표
8.2데이터셋:유엔총회일반토의
8.3비음수행렬분해(NMF)
8.4잠재시맨틱분석/인덱싱
8.5잠재디리클레할당(LDA)
8.6전략:워드클라우드를사용한토픽모델결과비교
8.7전략:단락의토픽분포및시간변화계산
8.8젠심을사용한토픽모델링
8.9전략:클러스터링을통한텍스트데이터구조파악
8.10추가아이디어
8.11요약및추천
8.12마치며

CHAPTER9텍스트요약
9.1학습목표
9.2텍스트요약
9.3전략:주제표현을이용한텍스트요약
9.4전략:지시자표현을사용한텍스트요약
9.5텍스트요약방법의성능측정
9.6전략:머신러닝을이용한텍스트요약
9.7마치며
9.8더읽어보기

CHAPTER10단어임베딩으로의미관계탐색
10.1학습목표
10.2시맨틱임베딩케이스
10.3전략:사전훈련된모델에유사한질의사용
10.4자체임베딩학습및평가를위한전략
10.5임베딩시각화를위한전략
10.6마치며
10.7더읽어보기

CHAPTER11텍스트데이터를이용한감성분석
11.1학습목표
11.2감성분석
11.3데이터셋:아마존고객리뷰
11.4전략:어휘기반감성분석
11.5지도학습접근법
11.6전략:텍스트데이터벡터화및지도학습알고리즘적용
11.7딥러닝을사용한사전훈련된언어모델
11.8전략:전이학습기법과사전훈련된언어모델사용
11.9마치며
11.10더읽어보기

CHAPTER12지식그래프구축
12.1학습목표
12.2지식그래프
12.3데이터셋:로이터-21578
12.4개체명인식
12.5상호참조해결
12.6전략:동시발생그래프생성
12.7관계추출
12.8지식그래프생성
12.9마치며
12.10더읽어보기

CHAPTER13프로덕션에서텍스트분석
13.1학습목표
13.2전략:콘다를사용한파이썬환경구성
13.3전략:컨테이너를사용한재현가능환경구성
13.4전략:텍스트분석모델을위한RESTAPI생성
13.5전략:클라우드공급자를사용한API배포및확장
13.6전략:빌드버전의관리및배포자동화
13.7마치며
13.8더읽어보기

출판사 서평

이럴땐이렇게!
98가지분석전략으로텍스트를정복하라

텍스트는문맥에크게의존하고있어컴퓨터가이해하는데많은어려움이있었다.하지만최근들어통계기술과머신러닝알고리즘이발전하며텍스트를분석하는다양한방식이탄생했다.그렇다면이많은텍스트분석기법중에서내가분석하려는텍스트에딱맞는방법을찾을수있을까?이책은저자들이여러비즈니스영역에서텍스트분석프로젝트를진행한경험을바탕으로텍스트에맞는분석전략98가지를소개한다.
각장에서는API나크롤링을이용한텍스트수집,정규표현식이나인공지능을활용한유사단어탐색,단어사이관계를파악하는지식그래프생성같은텍스트분석의모든과정마다필요한다양한전략을소개한다.이때사용하는데이터는유엔총회연설데이터,깃허브이슈모음,커뮤니티게시글모음등실제로마주할수있는텍스트로여러상황이나데이터에적합한맞춤형분석전략을소개한다.전략마다넘파이(NumPy),트랜스포머스(Transformers),사이킷런(scikit-learn),사이파이(SciPy),스페이시(spaCy)등텍스트분석에필요한라이브러리를사용하며,각자가지고있는데이터와요구사항에맞게변경해분석해볼수있도록코드의뼈대도함께제공한다.지금당장새로운정보를알아내야할텍스트가있다면이책에서소개하는적절한전략을찾아텍스트를정복하자.

[대상독자]
● 갖고있는텍스트에적합한분석법을판단하려는개발자
● 빠르게초기결과를만들어서프로젝트의성공가능성을검토하려는기획자
● 문제를풀기위한베이스라인을빠르게작성해야하는데이터과학자

[주요내용]
● API와웹페이지에서데이터를추출하는법
● 텍스트데이터를통계분석과머신러닝에사용할수있도록전처리하는법
● 머신러닝을활용한분류,주제모델링,요약기법
● 단어임베딩을활용한구문유사도시각화방법
● 명명된개체와그관계를기반으로한지식그래프구축법