모두의 한국어 텍스트 분석 with 파이썬

모두의 한국어 텍스트 분석 with 파이썬

$27.00
Description
먼 미래의 거대 모델도 작은 모델에서 시작!
지금 당장 내 손으로 직접 작고 간단한 모델을 구현해보자!
정말 쉽게 누구나 따라 해볼 수 있는 실전형 프로젝트 4가지 수록!

컴퓨터는 한국어를 어떻게 이해할 수 있을까? 컴퓨터로 한국어 텍스트를 다루는 데는 무엇이 필요할까? 맨땅에서 텍스트 분석을 시작하려 할 때 또는 텍스트 분석과 자연어 처리 분야의 기본기를 탄탄히 다지며 재정비하고 싶을 때 반드시 알아야 하는 내용만 담았다.
우선 본격적인 프로젝트를 시작하기 전에 텍스트 분석에 필요한 파이썬 기초 개념과 필수 파이썬 라이브러리의 기본 사용법을 살펴보면서, 텍스트 데이터 전처리 기능과 방법을 익힌다. 다음으로 텍스트 분석의 기본 개념이자 텍스트를 수치 형태의 데이터로 변환하는 벡터화 방법인 단어 가방 모형과 TF-IDF를 배운다. 이어서 네 가지 다른 한국어 데이터를 가지고 실제 프로젝트를 진행해본다. 프로젝트는 데이터 다운로드부터 전처리, 시각화까지 전 과정을 다루며, 실습은 지금 당장 어디서라도 쉽게 진행할 수 있게 코랩으로 준비했다.
저자

박조은

새로운것을배우고탐구하는것을좋아한다.주로게임과광고회사에서백엔드개발자로근무해왔다.알파고가등장했을즈음에초등학교에입학하는첫아이의육아를위해회사를그만두고오늘코드유튜브채널을개설하여데이터사이언스분야를탐구하기시작했다.여러기회가연결되어다양한도메인의기업,교육기관,학교와일하고있다.
파이토치한국사용자모임(pytorch.kr)의운영진으로활동하고있으며,MicrosoftMVP로커뮤니티와함께나누고성장하는것에도관심이많다.
-오늘코드유튜브:https://www.youtube.com/todaycode
-저자의무료텍스트분석강의재생목록:https://bit.ly/pytextbook-youtube

목차

1장코랩시작하기
LESSONOT들어가며
LESSON01코랩실행하기
____1주석
____2단축키
LESSON02코랩에서실습코드열기
____1코랩테마

2장파이썬에서문자열다루기
LESSONOT들어가며
LESSON01문자열실습전에
LESSON02문자열실습
____1문자열표현
____2오류처리
____3표현방법+오류처리
LESSONO3문자열을다루는여러방법
____1변수
____2인덱싱
____3슬라이싱
____4문자열의길이,단어수
____5문자열함수
____6반복
____7함수
____8문자열내장메서드목록

3장라이브러리다루기
LESSONOT들어가며
LESSON01판다스
____1데이터프레임과시리즈이해하기
____2str접근자로문자열다루기
LESSON02넘파이
____1넘파이배열이해하기
____2맷플롯립으로넘파이배열시각화하기

4장단어가방모형과TF-IDF
LESSONOT들어가며
LESSON01단어가방모형
____1단어가방모형을만드는방법
____2단어가방모형만들기
____3n-gram:앞뒤단어묶어서사용
____4min_df와max_df:빈도수설정
____5max_features:학습단어개수제한
____6stop_words:불용어제거
____7analyzer:문자,단어단위설정
LESSON02TF-IDF
____1TF-IDF가중치를적용하는방법

5장연합뉴스타이틀주제분류
LESSONOT들어가며
LESSON01데이터선택하기
LESSON02분류과정
LESSON03분류를위한기본설정
____1라이브러리불러오기
____2시각화를위한폰트설정
LESSON04데이터불러오기
LESSON05데이터전처리하기
____1데이터전처리를위한데이터병합
____2정답값빈도수확인
____3문자길이확인
____4맷플롯립과시본을이용해히스토그램으로시각화
____5주제별글자와단어의빈도확인
LESSON06문자전처리하기
____1숫자제거
____2영문자는모두소문자로변경
____3형태소분석기로조사,어미,구두점제거
____4불용어제거
LESSON07학습,시험데이터세트분리하기
LESSON08단어벡터화하기
LESSON09학습과예측하기
____1랜덤포레스트분류기
____2교차검증
____3학습
LESSON10답안지불러오기

6장국민청원데이터시각화와분류
LESSONOT들어가며
LESSON01분석과정
LESSON02분석을위한기본설정
____1라이브러리불러오기
LESSON03판다스로데이터불러오기
____1구글드라이브에파일다운로드
____2다운로드한데이터살펴보기
____3결측치가있는지확인하기
LESSON04판다스데이터분석과시각화
____1답변대상청원열추가
____2청원기간별분석
____3청원기간과분야별분석
____4시각화
LESSON05soynlp로워드클라우드그리기
____1라이브러리와데이터
____2토큰화
____3텍스트데이터전처리
____4워드클라우드그리기
____5명사만추출해시각화
LESSON06머신러닝으로국민청원데이터이진분류하기
____1지도학습과데이터세트분리
____2이진분류대상정하기
____3평균을기준으로투표수예측하기
____4전처리하기
____5학습세트와시험세트만들기
____6단어벡터화하기
____7TF-IDF가중치적용하기
____8LightGBM으로학습시키기
____9평가하기
____10예측하기
____11예측결과의정확도평가하기

7장‘120다산콜재단’토픽모델링과RNN,LSTM
LESSONOT들어가며
LESSON01분석과정
LESSON02잠재디리클레할당으로토픽분류하기
____1라이브러리설치및데이터불러오기
____2단어벡터화하기
____3잠재디리클레할당적용하기
____4pyLDAvis를통한시각화하기
____5유사도분석하기
LESSON03순환신경망으로텍스트분류하기
____1라이브러리와데이터불러오기
____2학습/시험데이터세트분리하기
____3레이블값을행렬형태로만들기
____4벡터화하기
____5패딩하기
LESSON04모델만들기
____1BidirectionalLSTM
____2모델컴파일하기
____3학습하기
____4예측하기
____5평가하기

8장인프런이벤트댓글분석
LESSONOT들어가며
LESSON01분석과정
LESSON02분석을위한기본설정
____1라이브러리불러오기
____2데이터불러오기
LESSON03데이터전처리
____1중복된글제거하기
____2소문자로변환하기
LESSON04문자열분리로‘관심강의’분리하기
LESSON05벡터화하기
LESSON06TF-IDF로가중치를주어벡터화하기
LESSON07군집화하기
____1KMeans
____2MiniBatchKMeans
____3클러스터예측평가하기
____4실루엣계수분석하기

9장ChatGPT를사용한문장생성자동화
LESSONOT들어가며
LESSON01생성모델의개념
LESSON02생성모델의파라미터크기와종류
LESSON03ChatGPT사용하기
LESSON04한국어생성서비스:뤼튼

출판사 서평

누구나쉽게다양한한국어텍스트데이터를분석할수있다!

준비:코랩환경과파이썬기초
이책의예제와프로젝트는코랩에서설치없이,클릭만으로바로실행할수있다.본격적인프로젝트를시작하기전에텍스트분석에필요한파이썬기초개념과필수파이썬라이브러리인판다스,넘파이,사이킷런의기본사용법을살펴보면서,텍스트데이터전처리기능과방법을익힌다.

개념:텍스트분석방법의기본개념
컴퓨터가한국어를어떻게이해하는지,텍스트데이터를어떻게분석하는지텍스트분석방법의기본개념을이해한다.그리고머신러닝/딥러닝라이브러리를사용하기위해텍스트를수치형태의데이터로변환하는,벡터화방법으로단어가방모형과TF-IDF를배운다.

프로젝트:네가지실제프로젝트분석
네가지다른한국어데이터를가지고실제프로젝트를진행해본다.(1)연합뉴스타이틀주제분류(2)국민청원텍스트분석(3)120다산콜재단데이터토픽모델링과유사도분석(4)인프런의이벤트댓글텍스트군집분석

[추천평]
처음운전을배울때,자동차에대한모든것을알필요도없고그렇게가르쳐주지도않습니다.자동차를운전할수있는기본요령만알고시작합니다.운전에재미를붙이고익숙해지고난뒤에하나씩자동차에대해서알아가면됩니다.자연어처리도이와비슷합니다.책의내용을차분히따라하다보면,어느새작은규모의프로젝트를손수구성해볼수있을것입니다.
송상헌_고려대학교언어학과

이책은이론설명에서멈추지않고,데이터획득,코드실습방법을알려주면서일반인도쉽게보고만지면서이해할수있게해줍니다.첫장을들추고마지막장을덮기까지책을손에서놓기가어려운짜임새,읽기쉬운문장들이저자의지식을독자에게쉽게전달하기위해정성을많이들였다는것을알수있었습니다.
전창욱_LGAIResearch

이책은기본을이해하고,실제사용방법을익힐수있는매우좋은책이다.초보자부터전문가까지모두에게유용한자료가되기를기대한다.
고병일_카카오엔터프라이즈자연어처리개발자

자연어처리분야에서오랫동안교육과연구에전념해온두분이함께내신책인만큼사례위주로접근해나의연구에적용해볼것을권합니다.텍스트분석은해당분야를전공한개발자나연구자뿐만아니라다른백그라운드를지닌개발자,사업을기획/운영하는사람,도메인전문가들이21세기에꼭배워야할기술중하나라고생각합니다.
이상열_데이터분석가,엔픽셀데이터사이언스셀장

자연어처리전성시대에텍스트분석에대한다양한예제와자세한설명이담긴책이나와서너무즐겁게읽었습니다.실습에필요한내용도꼼꼼하게잘들어있고,코드에대한설명도이해하기쉽게되어있어서텍스트분석에입문하는분도,경험이있으신분도많은도움을받을것입니다.
이진원_뉴블라CTO,AI반도체개발및AI알고리즘연구

초심자가따라갈수있을정도의친절함과필요한내용만담은간결함,두마리토끼를동시에잡은책입니다.
김태권_만화가

초심자가이해하기쉽게설명한내용들,실행하며따라하기좋은예제코드들이가니시(garnish)처럼매력을더해줍니다.특히후반부의매력적인프로젝트들은자연어처리로무엇을할수있는지궁금한분들이이책을펼치게만들어줄것입니다.
김현_자연어처리연구자

한글텍스트분석을시작할때모두가참고하던명강의가드디어책으로탄생했다는기쁜소식을듣고한걸음에베타테스트를신청했습니다.손에잡히는예제들을차곡차곡쌓아올린뒤,실무에서사용할수있을만큼흥미로운프로젝트사례까지차근차근실습해볼수있어서좋았습니다.자연어처리를처음시작하는모두에게가장좋은길잡이가되어줄것입니다!
송석리_서울고등학교교사,『모두의데이터분석』저자

유튜브강의로이미검증된내용을책에담았기때문에무겁지않고가볍게볼수있었습니다.이책을통해텍스트분석과조금더가까워질것입니다!
송진영_데이터분석가,방송통신대학교통계학과

누구나궁금할만한실제예제를통해가볍게텍스트분석을익힐수있습니다.구글코랩을이용해원격으로실습하게되어있어서누구나어디서나공부할수있고,텍스트분석전과정을다양한측면에서즐겁게체험해볼수있는입문서입니다.
이요셉_솔루티스그린솔루션연구소실장