R 기반 데이터 과학 타이디버스(tidyverse) 접근

R 기반 데이터 과학 타이디버스(tidyverse) 접근

$35.63
Description
최신 버전의 타이디버스 패키지를 적용한 개정판!
타이디버스 접근법은 2010년대부터 R 이용자들 사이에서 점차 각광받으며 이제 완전히 주류로 자리매김하였다. 《R 기반 데이터 과학 tidyverse 접근》의 초판 발행 당시 버전 1.2.1이던 타이디버스 패키지도 2023년 8월 기준 버전 2.0.0으로 여러 차례 업데이트되었다. 새롭게 출간된 《R 기반 데이터 과학 tidyverse 접근 개정판》은 최신 타이디버스 패키지의 코드 작성 방식을 반영하고, R 초심자들도 쉽게 활용할 수 있도록 한층 더 사용자 친화적으로 재편하였다. 개정판의 주요 변경사항은 다음과 같다.
■ 첫째, ‘긴 형태 데이터(long format data)’와 ‘넓은 형태 데이터(wide format data)’ 변환을 위해 소개했던 gather() 함수와 spread() 함수 대신, pivot_longer() 함수와 pivot_wider() 함수를 소개한다. 데이터 형태 변환의 원리와 변환 방식은 변함없지만, 이용자 입장에서 pivot_longer() 함수와 pivot_wider() 함수를 훨씬 더 이해하기 쉽게 구성하였다.
■ 둘째, 이용자가 지정한 조건에 맞는 여러 변수들을 일괄 처리하는 방법이 크게 달라졌다. 1판에서 사용했던 mutate() 함수와 summarize() 함수는 여전히 사용 가능하지만 출력결과에서 경고문구가 나타나는 문제가 있었다. 개정판에서는 1판 출간 후 개발된 across() 함수를 활용하는 방법들을 소개한다.
■ 셋째, 범주형 변수로 집단구분된 하위데이터(subset)를 대상으로 지정된 모형을 추정할 때 purrr 패키지의 map() 함수 대신 dplyr 패키지의 group_modify() 함수를 교체하여 소개한다. 1판의 split() 함수를 활용하여 데이터를 집단별로 구분한 후 map() 함수와 map_dfr() 함수를 연이어 사용하는 방식은 R을 처음 접하는 독자에게는 다소 복잡할 수 있다. dplyr 패키지의 group_modify() 함수는 R 초심자들도 비교적 쉽게 이해할 수 있으며, 무엇보다 1판에서 소개한 broom 패키지의 tidy() 함수와 같이 활용할 경우 집단구분된 하위데이터들을 대상으로 일괄적으로 모형을 처리하는 데 매우 효과적이다.
저자

백영민

연세대학교신문방송학과를졸업하고서울대학교언론정보학과에서석사학위를받았다.2011년미국펜실베이니아대학교아넨버그스쿨에서박사학위를받았다.한국과학기술원(KAIST)조교수를지내고현재연세대학교언론홍보영상학부부교수로재직중이다.
JournalofCommunication,CommunicationResearch,NewMedia&Society,JournalofBroadcasting&ElectronicMedia,HealthCommunication,PLOSONE,AmericanPoliticsResearch,PoliticalStudies,InternationalJournalofPublicOpinionResearch,NonprofitManagement&Leadership,JournalofSocialandPersonalRelationships,JournalofLanguageandSocialPsychology등언론학을포함다양한학문분과학술지에현재까지90편의학술논문(2023년6월기준)을출간하였다.저술한책으로《R기반성향점수분석:루빈인과모형기반인과추론》,《R을이용한결측데이터분석:최대우도및다중투입기법을중심으로》,《R기반복합설문데이터분석》,《R를이용한텍스트마이닝》,《R기반제한적종속변수대상회귀모형》,《R를이용한사회과학데이터분석:구조방정식모형분석》,《방법론적사유:입말로풀어쓴사회과학연구방법론》,《R기반네트워크분석》등이있으며,번역한책으로는《국민의선택:대통령선거캠페인기간에유권자는지지후보를어떻게결정하는가?》,《포퓰리즘》,《퍼스널인플루언스》,《소셜미디어와공익:가짜뉴스시대의미디어정책》등이있다.

목차

PART1들어가며
CHAPTER01R과RStudio설치안내
CHAPTER02타이디버스패키지와타이디데이터(tidydata)
CHAPTER03본서에서사용된R패키지
CHAPTER04기본적인R사용법과R베이스함수들

PART2타이디버스패키지함수들을활용한데이터관리
CHAPTER01데이터관리
CHAPTER02변수관리
CHAPTER03데이터형태변환
CHAPTER04데이터합치기

PART3기술통계분석및분석결과시각화
CHAPTER01count()함수를이용한빈도분석및분석결과의시각화
CHAPTER02summarize()함수를이용한기술통계분석및분석결과의시각화

PART4일반선형모형(GLM)추정
CHAPTER01종속변수와독립변수,두변수의관계를다루는통계기법
CHAPTER02분산분석(ANOVA)과공분산분석(ANCOVA)
CHAPTER03회귀분석:종속변수가정규분포를갖는경우
CHAPTER04회귀분석:종속변수가비정규분포를갖는경우

PART5개념측정의신뢰도와타당도,그리고데이터의축약
CHAPTER01측정의신뢰도와타당도
CHAPTER02군집분석(비지도기계학습)

PART6마무리
CHAPTER01비정형텍스트데이터소개
CHAPTER02기타사항들

참고문헌
함수찾아보기

출판사 서평

데이터관리·분석의새로운세계를보여주는타이디버스안내서!
타이디버스(tidyverse)란,‘타이디데이터(tidydata)형태를데이터분석및시각화의표준으로하는,데이터접근법들로구성된세계’라고볼수있다.타이디데이터는3가지규칙을지닌다.‘①하나의변수는하나의세로줄을형성한다.②하나의사례는하나의가로줄을형성한다.③하나의변수의종류별로하나의표를형성한다’가그것이다.사실이3가지규칙은그리놀라운것은아니다.일반적으로우리가접하는데이터는대개이규칙들을따르기때문이다.그러나문제는데이터과학에서다루는적지않은데이터들이이규칙을전면적으로혹은부분적으로따르지않은채‘정리되지않은데이터(uncleaneddata)’혹은‘지저분한데이터(messydata)’로남아있으며,그로인해실질적인데이터분석이이루어지지못한다는점이다.
이책은연구자들로하여금정리되지않은방대한양의데이터를위의3가지규칙에따라기술통계분석,모형추정,분석결과의시각화를할수있는형태로정리하여타이디데이터형태로정리하는방법을안내해준다.아울러타이디버스라이브러리의여러함수들과그활용방법을소개함으로써독자들이효율적·효과적으로데이터를관리·분석하고실질적인분석결과를도출할수있도록이끌어준다!

R기반데이터과학의진보,타이디버스접근법!
오늘날R이용환경은급속하게변화하고있다.그러나환경이변했다고해서R을이용하는것이더어려워진것은아니다.R환경은더많은양의데이터,더다양한형태의데이터를보다쉽게다루고분석할수있도록변해가고있으며,이발전적변화를주도하고있는패키지가바로‘타이디버스(tidyverse)’이다.
‘타이디버스접근법’을쓰기위해기존의R프로그래밍습관을버릴필요는없다.상황에따라서는타이디버스접근법을따르는것보다R베이스에기반해데이터를분석하는것이더효율적이기도하다.그러나데이터가크고복잡하며,정리되지않은지저분한형태로존재할때타이디버스접근법은매우위력적이다!