R를 이용한 텍스트 마이닝 (개정판)

R를 이용한 텍스트 마이닝 (개정판)

$39.93
Description
R를 이용한 텍스트 마이닝 기법의
변화와 발전에 맞춘 2020 개정판
2017년 가을 첫선을 보인 후 독자의 사랑을 받아온 R를 『이용한 텍스트 마이닝』의 개정판이 나왔다. 2년 반이라는 길다면 길고 짧다면 짧은 시간동안 R을 활용한 기법은 많은 변화와 발전이 있었다. 기법상의 변화 뿐 아니라 우리를 둘러싼 텍스트 환경의 판도도 변화했다. 웹보다는 모바일 플랫폼이 대세가 된 것이다. 저자는 이러한 변화에 발맞추고 학계와 독자들의 피드백을 반영해 424쪽 개정판을 내놓았다. 이 책에서 다루는 여러 기법들은 학문적 신뢰성이 검증되었으며 현재 언론학, 정치학, 사회학, 컴퓨터공학, 통계학 등의 학술논문에서 소개되거나 해당 분과의 학술적 주장을 뒷받침하는 자료로서 효용을 인정받고 있다. 또한 예제를 통해 독자가 직접 실습해 볼 수 있도록 구성되어 있다. 저자는 자신의 연구 데이터를 분석하기 위한 도구로서 R을 다루어 왔고 여론조사 및 수용자 조사, 계량적 연구 방법에 주로 관심을 두고 연구해 왔다. 이와 함께 수년간 R를 이용한 텍스트 분석 워크숍을 진행한 저자의 경험이 이 책에 그대로 녹아 있다.
저자

백영민

연세대학교에서신문방송학을전공하고서울대학교언론정보학대학원에서석사학위를받았으며미국펜실베이니아대학교아넨버그커뮤니케이션스쿨에서2011년박사학위를받았다.한국과학기술원(KAIST)조교수를거쳐현재연세대학교언론홍보영상학부부교수로재직중이다.
여론조사및수용자조사,계량적연구방법에주로관심을두고연구해왔다.현재R를이용하여실험이나설문자료와같은전통적인사회과학데이터분석은물론,언론보도아카이브,정부문서,온라인공간의댓글등과같은텍스트데이터분석을시도하고있다.사회과학연구자들이R를요령있게사용할수있도록꾸준히소개하면서R기반제한적종속변수대상회귀모형(2019),R기반데이터과학:tidyverse접근(2018),R을이용한다층모형(2018),R를이용한사회과학데이터분석:구조방정식모형분석(2017)등의저서를출간했다.
PLOSONE,JournalofCommunication,CommunicationResearch,NewMedia&Society,JournalofBroadcastingandElectronicMedia,AmericanPoliticsResearch,≪한국언론학보≫등여러학술지에논문을게재했고,역서로『포퓰리즘』(2017),『수학적커뮤니케이션이론』(2016),『국민의선택:대통령선거캠페인기간에유권자는지지후보를어떻게결정하는가』(2015)등이있다.
ㆍ홈페이지https://sites.google.com/site/ymbaek/

목차

ㆍ2판머리말
ㆍ1판머리말


1부텍스트데이터란무엇인가
01텍스트를데이터로파악하기

2부텍스트데이터처리
01텍스트분석을위한기초적R함수
02텍스트분석을위한R의베이스함수
03텍스트분석을위한stringr패키지함수
04말뭉치텍스트데이터사전처리
05한국어텍스트데이터처리
06품사분석

3부텍스트데이터분석및결과제시
01텍스트데이터에대한기술통계분석
02토픽모형
03감정분석

4부마무리
01RSelenium,rvest패키지를활용한온라인데이터수집
02맺음말

별첨자료
01자바설치방법
02잠재토픽개수선정

출판사 서평

R를이용한텍스트마이닝(개정판)
이번개정판에는...

첫째,텍스트사전처리와관련된stringr패키지에편리한기능을의함수들이새로탑재되었다.이에따라2판에서는stringr패키지의함수들을설명하는분량이증가했다.
둘째,1판에서사용한말뭉치(corpus)데이터를업데이트했다.
셋째,KoNLP패키지에서기존사전에이용자가지정표현을추가하하는방법을소개했다.또한KoNLP패키지외에한국어형태소분석이가능한R패키지들을간단하게소개했다.
넷째,텍스트내부의단어와단어의연관관계를설명에널리사용되는연관규칙(associationrule)분석을새로소개했다.
다섯째,잠재적디리클레할당(latentDirichletallocation,LDA)모형에서최적의잠재토픽개수를추정하는방법을추가로소개했다.
여섯째,적은수의단어로구성된짧은텍스트(예를들어140자이내의트윗,온라인Q&A게시판,광고문구등)에서잠재토픽을추정하는데특화된토픽모형들중하나로‘공통단어등장토픽모형(bitermtopicmodel,BTM)’을추가로소개했다.
일곱째,타이디데이터관점에서데이터를조직하고관리하는tidyverse접근법을기반으로하는텍스트데이터분석기법들을대폭추가했다.
여덟째,감정어휘사전(sentimentlexicon)을이용한감정분석(sentimentanalysis)내용은거의대부분을새로작성했다.우선영어텍스트의경우최근새로운감정어휘사전들이개발되어공개되면서,이를다운로드받을수있는textdata패키지를새로소개하게되었다.
아홉째,caret패키지를이용해지도기계학습기법을소개했다.
끝으로웹스크레이핑(scraping)을소개하는부분은완전히새로작성했다.1판에서는실렉터가젯(selectorGadget)이라는프로그램을위주로웹스크레이핑을설명했으나,온라인공간의웹페이지구성방식변화로인해실렉터가젯을활용한웹스크레이핑적용영역은크게감소했다.2판에서는모바일환경에특화된그리고반응형웹페이지가주류인현재의온라인공간에더적합한RSelenium패키지와rvest패키지를이용한웹스크레이핑방법을간략하게소개했다.
이번개정판은흑백으로인쇄되었던초판과달리컬러로인쇄해독자들이출력결과물을실제색으로확인할수있다.코드부분도본문과색을다르게인쇄하여가시성을높였다.

출간의의

프로그램의작동법을아는것과그것을이용헤제대로된결과물을얻는것은별개이다.R이강력한도구임에는틀림없지만그도구를어떻게써야하는지배우는데는상당한노력이필요하다.특히일반적,피상적사용법으로는나에게맞는최적의결과물을만들어내기어렵다.
저자는자신의연구데이터를분석하기위한도구로서R을다루어왔고여론조사및수용자조사,계량적연구방법에주로관심을두고연구해왔다.저자자신의시행착오와교차검층을통해확인된결과를제시하고있다는점이이책을더욱가치게한다.이책은기존의영어텍스트처리방식뿐만아니라우리말에특화된방식도자세하게예제를통해설명하고있어특히도움이된다.
자신의연구를위해또데이터분석을위해R를이용하고자하는사람은저자의친절한설명과자세한코드등을이용해보다쉽게텍스트마이닝에도전해볼수있을것이다.