퀀트 사회과학 R로 입문 : R을 활용한 데이터 분석 - 에이콘 데이터 과학 시리즈

퀀트 사회과학 R로 입문 : R을 활용한 데이터 분석 - 에이콘 데이터 과학 시리즈

$35.91
Description
이 책은 기존의 데이터 분석 및 통계학 책들과는 다르다. 실제 사회과학 분야에서 쓰이는 데이터를 먼저 접한 후 R을 사용해서 기본적인 데이터 분석과 프로그래밍을 연습하는 순서로 구성돼 있다. 데이터 분석과 통계학을 처음 배우는 모든 사람을 위한 책이며, 독자들은 데이터 분석의 재미를 발견할 수 있을 것이다. 더 나아가 데이터 분석을 활용해 사회과학자들이 사회적 문제 및 인간 행동양식에 대한 결론과 중요한 해답을 어떻게 제시하는지 살펴볼 수 있다. 데이터 과학 분야의 실무종사자, 사회과학 분야의 학부생, 대학원생 및 연구자들에게 도움이 될 것이다.

저자

이마이코스케

저자:이마이코우스케
KosukeImai
하버드대학교의정책학과및통계학과교수다.그전에는프린스턴대학교의정치학교수이자통계학및머신러닝프로그램의설립디렉터로재직했다.

역자:윤원주
한국외국어대학교경영대학마케팅전공교수로재직중이다.텍사스A&M대학교메이즈경영대학원에서마케팅박사학위를취득했고,노스웨스턴대학교,한양대학교에서각각석사및학사학위를취득했다.한국외국어대학교이전에는미국미시간주의오클랜드대학교경영대학원에서마케팅교수생활을했다.전문연구분야는계량마케팅,마케팅전략,신제품개발및혁신등이며이와관련된연구들을「JournalofMarketing,MarketingLetters」등여러국제학술지에게재했다.

목차

1장.시작하며
__1.1이책의개요
__1.2이책의활용
__1.3R소개
____1.3.1산술연산
____1.3.2객체
____1.3.3벡터
____1.3.4함수
____1.3.5데이터파일
____1.3.6객체저장
____1.3.7R패키지
____1.3.8프로그래밍및학습팁
__1.4요약
__1.5연습문제
____1.5.1자가보고된투표율의편향
____1.5.2세계인구의동태적이해

2장.인과효과
__2.1노동시장에서인종차별
__2.2R에서데이터부분선택
____2.2.1논리값과연산자
____2.2.2관계연산자
____2.2.3부분선택
____2.2.4간단한조건문
____2.2.5요인변수
__2.3인과효과와반사실
__2.4무작위대조시험
____2.4.1무작위의역할
____2.4.2사회적압박과투표율
__2.5관찰연구
____2.5.1최저임금과실업률
____2.5.2중첩편향
____2.5.3전후비교법및이중차분법설계
__2.6단일변수의기술통계량
____2.6.1분위수
____2.6.2표준편차
__2.7요약
__2.8연습문제
____2.8.1초기교육에서소규모학급의효용
____2.8.2게이결혼에대한인식변화
____2.8.3자연실험으로써지도자암살성공

3장.측정
__3.1전쟁기간중민간인희생자측정
__3.2R에서결측값다루기
__3.3일변량분포시각화
____3.3.1막대그래프
____3.3.2히스토그램
____3.3.3박스플롯
____3.3.4그래프인쇄및저장하기
__3.4설문조사샘플링
____3.4.1무작위화의역할
____3.4.2무응답과다른편향발생요인
__3.5정치적양극화측정하기
__3.6이변량관계요약하기
____3.6.1산점도
____3.6.2상관관계
____3.6.3Q-Q플롯
__3.7군집화
____3.7.1R에서행렬
____3.7.2R에서리스트
____3.7.3k평균알고리즘
__3.8요약
__3.9연습문제
____3.9.1동성혼에대한인식변화:재논의
____3.9.2중국과멕시코에서정치효능감
____3.9.3UN총회투표

4장.예측
__4.1선거결과예측하기
____4.1.1R에서루프
____4.1.2R에서일반적인조건문
____4.1.3여론조사결과예측
__4.2선형회귀
____4.2.1얼굴생김새와선거결과
____4.2.2상관관계와산점도
____4.2.3최소제곱
____4.2.4평균으로의회귀
____4.2.5R에서데이터셋결합하기
____4.2.6모형적합도
__4.3회귀분석과인과효과
____4.3.1무작위실험
____4.3.2다중회귀모형
____4.3.3이질적처치효과
____4.3.4회귀단절모형
__4.4요약
__4.5연습문제
____4.5.1도박시장에기반한예측
____4.5.2멕시코선거와조건부현금이전프로그램
____4.5.3브라질에서정부간이전지출과빈곤감소

5장.발견
__5.1텍스트데이터
____5.1.1『연방주의자』저자를둘러싼논쟁
____5.1.2문서-용어행렬
____5.1.3토픽의발견
____5.1.4저자예측
____5.1.5교차검증
__5.2네트워크데이터
____5.2.1르네상스시대피렌체의결혼네트워크
____5.2.2무방향그래프와중심성척도
____5.2.3트위터-팔로잉네트워크
____5.2.4유방향그래프와중심성
__5.3공간데이터
____5.3.11854년런던의콜레라대유행
____5.3.2R에서공간데이터
____5.3.3R에서색상
____5.3.4미국대통령선거
____5.3.5월마트의확장
____5.3.6R에서애니메이션
__5.4요약
__5.5연습문제
____5.5.1헌법전문의분석
____5.5.2국제무역네트워크
____5.5.3미국대선결과시계열매핑

6장.확률
__6.1확률
____6.1.1빈도론자vs베이지안
____6.1.2정의와공리
____6.1.3순열
____6.1.4복원추출및비복원추출
____6.1.5조합
__6.2조건부확률
____6.3.1조건부확률,주변확률,결합확률
____6.2.2독립성
____6.2.3베이즈규칙
____6.2.4성과거주지를이용한인종예측
__6.3확률변수와확률분포
____6.3.1확률변수
____6.3.2베르누이분포와균등분포
____6.3.3이항분포
____6.3.4정규분포
____6.3.5기대값과분산
____6.3.6불확실성을동반하는선거결과예측하기
__6.4대표본이론
____6.4.1대수의법칙
____6.4.2중심극한정리
__6.5요약
__6.6연습문제
____6.6.1에니그마의수학
____6.6.2도박시장의선거예측을위한확률모델
____6.6.3러시아의선거부정

7장.불확실성
__7.1추정
____7.1.1불편성과일치성
____7.1.2표준오차
____7.1.3신뢰구간
____7.1.4오차범위와여론조사에서표본크기계산
____7.1.5무작위대조시험분석
____7.1.6스튜던트t분포에기반한분석
__7.2가설검정
____7.2.1차-시음실험
____7.2.2가설검정의일반적구조
____7.2.3일표본검정
____7.2.4이표본검정
____7.2.5가설검정의함정
____7.2.6검정력분석
__7.3불확실성을동반하는선형회귀모형
____7.3.1생성모델로서의선형회귀
____7.3.2불편추정계수
____7.3.3추정계수의표준오차
____7.3.4계수에관한추론
____7.3.5예측에관한추론
__7.4요약
__7.5연습문제
____7.5.1중국에서남녀성비와농작물가격
____7.5.2학술연구에서파일서랍과출판편향
____7.5.31932년바이마르공화정시기의독일선거

8장.그다음으로

__컬러이미지

출판사 서평

◈이책의구성◈

1장,서론
이책을어떻게하면가장잘활용할수있는지설명하며수요가높은오픈소스통계프로그래밍종합환경인R에관해서도간략하게소개한다.

2장,인과효과
인과효과(causaleffect)는사회과학조사분야에서중추적인역할을담당하는데특정정책이나프로그램이종속변수에영향을미치는지여부를알아내고자할때쓰인다.처치(treatment)의무작위할당이어떤방식으로해당처치의평균적인인과효과를파악할수있게끔하는지를설명한다.또한관찰연구(observationalstudy)에서연구자들이처치할당에대한통제가없는상황에서의인과추론을배울것이다.관찰연구에서는선택편향(selectionbias)를줄이고자사용되는몇가지전략을소개한다.

3장,측정
측정(measurement)의기본적인개념을소개한다.정확한측정은데이터주도발견을위해중요하다.왜냐하면측정편향은잘못된결론과잘못된결정으로이어질수있기때문이다.표본조사(samplesurvey)를통해서어떻게여론을측정하는지를살펴본다.그런다음비슷한관측값그룹을찾도록해주는기본적인k-평균클러스터링알고리즘(k-meansclusteringalgorithm)을소개한다.또한분위수(quantiles),표준편차(standarddeviation),지니계수(Ginicoefficient)와같은다양한데이터분산의측정값들을소개한다.R프로그래밍관점에서일변량(univariate)과이변량(bivariate)데이터를시각화하는다양한방법을소개한다.

4장,예측
특정사건들의발생을예측(prediction)하는것은정책및의사결정과정에서중요한요소다.그리고다른변수를기반으로한변수의값을예측하는데유용한선형회귀모형(linearregressionmodel)을소개한다.선형회귀와의상관관계를설명하고'회귀'라는용어의근원인'평균으로의회귀(regressiontowardsthemean)'에대한현상을살펴본다.또한단순한예측보다는인과효과를추정하는데회귀모형을사용할수있는지도논의한다.그리고관찰연구에서인과추론을위한회귀단절모형(regressiondiscontinuitydesign)을소개한다.강력하지만매우어려운R프로그래밍개념인루프(loop)와조건(구)문(conditionalstatement)을소개한다.둘째,단위(유닛)간의관계설명에중점을두고네트워크데이터(networkdata)를어떻게분석할지의방법을보여준다.마지막으로지리-공간데이터를소개한다.그리고몇몇특수R패키지들을사용해다양한데이터를시각화기술을적용한다.

5장,발견
다양한종류의데이터에서패턴을발견(discovery)하는것을살펴본다.'빅데이터'를분석할때데이터의일관된패턴을식별하기위한자동화된방법들과시각화도구들이필요하다.첫째,텍스트를데이터로분석한다.둘째,단위(유닛)간의관계설명에중점을두고네트워크데이터(networkdata)를어떻게분석할지의방법을보여준다.마지막으로지리-공간데이터를소개한다.그리고몇몇특수R패키지들을사용해다양한데이터를시각화기술을적용한다.

6장,확률
데이터분석에서불확실성에대한대통일수학모델인확률(probability)로초점을옮긴다.확률은통계적추론의기초가되기때문에중요하며,그목적은추론의불확실성을정량화하는것이다.확률을해석하는두가지주요한관점인빈도주의자(frequentist)와베이지안(Bayesian)을논의하는것에서부터시작한다.그런다음확률과조건부확률에대한수학적정의를제공하고,확률에대한몇가지기본규칙들을소개한다.

7장,불확실성
추정값과예측들의불확실성(uncertainty)을어떻게계량화하는지를논의한다.이전장들에서는데이터에서패턴을발견하는다양한데이터분석방법들을소개했다.6장에서제시된토대위에7장에서는데이터패턴들에대해얼마나확신해야하는지철저히설명한다.표준오차,신뢰구간,가설검정등의계산을통해서신호를노이즈와구분하는방법을보여준다.

8장,그다음으로
이책을다읽을때쯤할수있는다음단계를간략하게설명하고끝맺는다.계량사회과학연구에서데이터분석의역할은무엇인지도논의한다.

○작가의말

계량사회과학은학문간상호교차하는분야로서경제학,정치학,공공정책,심리학,사회학을비롯한방대한학문들을포괄한다.계량사회과학분야의학자들은사회와인간행동에대한문제를이해하고해결하고자데이터를분석한다.예를들면연구자들은노동시장에서의인종차별을연구하거나,새로운교과과정이학생들의학업성취도에미치는영향을평가하거나,선거결과를예측하거나,사회관계망이용을분석한다.유사한데이터분석기반의접근법은인접분야인보건,법률,언론,언어학,문학에까지쓰이고있다.사회과학자들은현실세계의광범위한이슈를연구하기때문에그연구결과는사회구성원개개인,정부정책,상업적관행에직접적으로영향을미칠수있는잠재력이크다.
누구나데이터를분석할수있어야한다는믿음에서이책을쓰게됐다.이책은계량사회과학연구에필요한데이터분석의세가지요소를알려준다.연구맥락,프로그래밍기법,통계방법론으로,이중하나라도빠지면연구결과가부실해진다.연구맥락없이는데이터연구에필요한가정의신뢰성을평가할수없으며,실증적발견이암시하는바를이해할수없게된다.프로그래밍기법없이는자료를분석하고연구과제의답을찾을수없을것이다.통계학적원리에대해가이드가없다면신호(signal)라고알려진체계적양식과노이즈(noise)라일컫는잘못된추론을이끌어낼수있는불규칙한양식을구별하기힘들다(여기서추론이란관찰된자료를기초로불특정수량에대한결론을이끌어내는것을말한다).이책은이세가지요소를결합시킴으로써얻게되는데이터분석의힘을실증적으로설명해준다.
이책만의차별점은이미출판된계량사회과학학술연구에서직접발췌한데이터셋분석을통해프로그래밍기법과통계적개념을동시에보여준다는점이다.사회과학자들이데이터분석을활용해사회문제와인간행동양식의중요한문제에해답을제시하는것을목표로저술했다.이와동시에이책의사용자들은기초적인통계개념과기초프로그래밍기술을배우게될것이다.가장중요한것은40개에달하는데이터셋을공부해데이터분석에관한경험을쌓을수있게된다는점이다.