빅데이터 시대, 올바른 인사이트를 위한 통계 101×데이터 분석

빅데이터 시대, 올바른 인사이트를 위한 통계 101×데이터 분석

$22.00
저자

아베마사토

저자:아베마사토
현일본이화학연구소혁신지능통합연구센터연구원.도쿄대학교에입학하여광역과학전공으로박사학위를취득한뒤,일본학술진흥회(DC1)와국립정보학연구소과학기술진흥기구(JST)연구원을거쳐현재에이르렀다.통계및기계학습을이용한데이터분석과수리모형해석을무기로곤충의사회성,인간의뇌와행동,사회,생태계등폭넓은주제를연구해왔고,이를인정받아일본수리생물학회연구장려상을수상했다.과거국제기독교대학교와도쿄농업대학교의강사시절,초보자를위한통계학강의로많은학생으로부터호평받은바있다.이책은그때의경험을살려저술한것이다.다른저서로《R로배우는통계학입문(Rでぶ統計入門)》,《Python과R로배우는데이터과학(Python,Rでぶデタサイエン)》등이있다.

역자:안동현
연세대학교심리학과를졸업하고웹개발프리랜서를거쳐IT전문출판사에서기획과편집업무를담당했다.번역서로《프로그래머,수학으로생각하라》,《처음만나는머신러닝과딥러닝》,《HTML5&API입문》,《데이터해석입문》,《건강한프로그래머》(이상프리렉),《이렇게쉬운통계학》(한빛미디어)등이있다.

목차

시작하며

1장통계학이란?:데이터분석에서통계학의역할

1.1데이터를분석하다
데이터와통계학
데이터분석의목적
1.2통계학의역할
통계학은데이터퍼짐정도가클수록힘을발휘한다
데이터퍼짐이작은현상
1.3통계학의전체모습
기술통계와추론통계
다양한분석방법

2장모집단과표본:데이터분석목적과대상설정

2.1데이터분석의목적과알고자하는대상
데이터분석의목적
알고자하는대상
2.2모집단
모집단을생각하다
모집단크기
2.3모집단의성질을알다
모집단의성질
전수조사
표본조사
표본크기

3장통계분석의기초:데이터유형,통계량,확률

3.1데이터유형
모집단과표본
변수
다양한데이터종류
3.2데이터분포
그림으로데이터분포표현하기
히스토그램은그림으로나타낸것일뿐
3.3통계량
데이터특징짓기
다양한기술통계량
분산을확인할수있는상자수염그림
이상값
3.4확률
확률을배우기전에
확률의기본사고방식
추론통계와확률분포
확률변수가2개일때
3.5이론적인확률분포
확률분포와파라미터
정규분포
표준화
다양한확률분포

4장추론통계~신뢰구간:데이터로모집단의성질을추정한다

4.1추론통계를배우기전에
전수조사와표본조사
데이터를얻는다는것
무작위추출
추론통계를직감적으로이해하기
4.2표본오차와신뢰구간
모집단과데이터사이의오차고려하기
표본오차
표본오차의확률분포
신뢰구간이란
t분포와95%신뢰구간
신뢰구간과가설검정

5장가설검정:가설검정과p값

5.1가설검정의원리
또하나의추론통계방법
통계학에서가설이란
p값
가정검정흐름정리
5.2가설검정시행
가설검정의구체적인계산
기각역과p값
신뢰구간과가설검정의관계
가설검정의구체적인예
5.3가설검정관련그래프
오차막대
“통계적으로유의미”를나타내는표기
5.4제1종오류와제2종오류
진실과판단의4패턴
α와β는상충관계
효과크기를달리했을때의α와β

6장다양한가설검정:t검정부터분산분석,카이제곱검정까지

6.1다양한가설검정
가설검정방법구분해사용하기
6.2대푯값비교
모수검정의평균값비교
비모수검정의대표값비교
분산분석(3개집단이상의평균값비교)
다중비교검정
6.3비율비교
범주형데이터
이항검정
카이제곱검정:적합도검정
카이제곱검정:독립성검정

7장상관과회귀:두양적변수의관계를분석하다

7.1양적변수사이의관계를밝히다
2개의양적변수로이루어진데이터
산점도
상관
회귀
7.2상관관계
피어슨상관계수
비모수상관계수
상관계수와가설
비선형상관
7.3선형회귀
회귀분석이란?
회귀계수
결정계수
오차의등분산성과정규성
설명변수와반응변수

8장통계모형화:선형회귀에서일반화선형모형으로

8.1선형회귀원리의확장
선형회귀는다양한해석방법의기초
다중회귀
편회귀계수
범주형변수를설명변수로
공분산분석
고차원데이터문제
다중공선성
8.2회귀모형의형태바꾸기
상호작용
이원배치분산분석
비선형회귀
8.3일반화선형모형의개념
선형회귀원리확장하기
가능도와최대가능도방법
로지스틱회귀
푸아송회귀
다양한일반화선형모형
8.4통계모형의평가와비교
왈드검정
가능도비검정
AIC
BIC
그밖의정보기준

9장가설검정의주의점:재현가능성과p-해킹

9.1재현성
가설검정,이해는어렵지만시행은간단
재현성위기
재현불가능한원인은?
과학논문게재과정
9.2가설검정의문제점
가설검정이해하기
p값되돌아보기
피셔류검정과네이만피어슨류검정
효과크기
베이즈인수
논문이옳지않을확률
좋은가설세우기
9.3p해킹
p해킹(p-hacking)이란?
p해킹을예방하기위한노력들
가설검정을이해할때확인할항목

10장인과와상관:잘못된해석을방지하기위한사고방식

10.1인과와상관
인과관계밝히기
인과관계와상관관계
인과관계와상관관계의다양한사례
10.2무작위통제실험
인과관계를밝히려면
무작위통제실험
10.3통계적인과추론
인과효과를추정하는또다른방법

11장베이즈통계:유연한분석을향해서

11.1베이즈통계의사고방식
통계학의2가지흐름
베이즈통계의이미지
통계모형
베이즈통계의사고방식
베이즈통계의이점
11.2베이즈통계알고리즘
MCMC방법
MCMC방법의예
11.3베이즈통계사례
이표본평균값비교
푸아송회귀의예
계층적베이지안모형

12장통계분석과관련된그밖의방법:주성분분석부터기계학습까지

12.1주성분분석
변수의차원
주성분분석
인자분석
12.2기계학습입문
기계학습이란?
통계학과기계학습의차이
12.3비지도학습
비지도학습이란?
12.4지도학습
지도학습이란?
예측성능측정①:이진클래스분류
예측성능측정②:회귀

13장모형:통계모형·기계학습모형·수리모형

13.1모형이란?
통계모형·기계학습모형·수리모형
모형은현상을이해하는도구
수리모형이란?
13.2수리모형:미분방정식
미분방정식과차분방정식
수리모형사례①:수의변화를모형으로
수리모형사례②:감염병모형
복잡한모형으로
13.3수리모형:확률모형
확률모형
수리모형의역할

마치며
찾아보기

출판사 서평

연구에서비즈니스까지,언제어디서나통하는
데이터를다루는모두를위한맞춤교양통계강의'통계101'!

'숨만쉬어도기록과자료가쌓이는'빅데이터시대를맞아,점점더많은사람이데이터를다루기시작하고있습니다.데이터를수집하고,이리저리분석하고,수치나표,그래프를보는일이나날이익숙해져만갑니다.'데이터분석'을통해신뢰성높은증거를얻고,미래상태를설득력있게예측할수있기에,'데이터분석'은자연과학,심리학,경제학,사회과학등여러연구분야는물론비즈니스현장에까지폭넓게쓰입니다.

데이터과학의근간은바로'통계(statistics)'에있습니다."현상이나자료에관한수량적인기술"에관한오랜탐구의결실인통계.그런만큼그원리와관점,사고방식을꼼꼼히체화해야만비로소수치와데이터에서올바른인사이트를이끌어낼수있게됩니다.이는문자를다쓸줄안다해서꼭문장을잘구사한다고할순없는것과마찬가지이치입니다.데이터를적절하게수집하려면,분석방법을제대로선택하려면,나온결과지를오독하지않으려면,먼저통계에대해이해하는것이필수입니다.

그렇지만우리는바쁩니다.당장살펴볼데이터만하더라도,말그대로거대한뭉치입니다.또직접나서서실험하고조사할일도너무나많습니다.그런가하면통계소프트웨어사용법도익혀야겠는데,그것도녹록지는않습니다.그렇게'데이터분석'자체에매달리다보면,정작데이터에서올바른인사이트를얻기위해정말중요한‘통계’는다소뒷전이되곤합니다.

그러다간혹통계학습의필요성을느껴고등학교시절살짝배웠던'확률과통계'를떠올려봐도,분포나신뢰구간같은개념이파편적으로만남아좀처럼체계화되질않습니다.본격적으로책이라도읽어보고자하면'수식이대부분인지나치게어려운전문서'아니면'통계개념을살짝곁들인흥미진진한일화위주에세이'인관계로,딱원하는만큼의통계학지식을익히기가쉽지만은않은상황이었습니다.

만일이것이여러분의이야기라면,잘오셨습니다.이책은데이터분석맞춤교양통계강의,'통계101'입니다.

모집단과표본부터상관과인과까지,기술통계부터기계학습까지
지금내게필요한통계의핵심이빠짐없이다채롭게담겼다!

통계에과도하게많은시간과노력을쏟고지치지않도록,본연의업무/연구에제대로집중할수있도록,'통계101'강의실에어서들어오세요!이책《통계101×데이터분석》에서저자아베마사토는,본격적인데이터분석에필수불가결한통계적사고방식과다양한통계분석방법지식에대해가능한한알기쉽게,모든내용을빠짐없이소개하고자했습니다.

그는생물학,심리학,농학등다양한전공의,통계학을배운적없는대학생들을대상으로통계학입문을강의해온경험을살려,문장은최대한잘읽히도록정제하고,수학적인설명은될수있는대로줄이면서도최대한정확한해설을위해노력했습니다.특히초보자가실수하기쉬운점을자세히설명하여,구석구석도움을주고자하는배려가돋보입니다.개중백미는,무려200컷에가까운그림들입니다.복잡한개념도한눈에알아보고,분명히이해할수있게끔독창적인도식(그림)들을많이실음으로써,수학적기초가없고다소자신감이부족한독자라도완독할수있도록세심히안배하고있습니다.

《통계101×데이터분석》은13장으로구성되었습니다.1~3장에서는데이터분석의목적부터통계분석에필요한기초지식과개념을두루개괄합니다.4~5장에서는본격적인통계분석인추론통계개념을,6~8장에서는데이터형태나목적에따른다양한추론통계분석방법을살펴봅니다.9장에서는최근화제가된가설검정사용법과재현가능성관련논의를짚어보며,10장에서는결과해석시중요한상관과인과의차이점을집중적으로다룹니다.

여기까지가'빈도주의통계'라면,남은3개장은더다채로운응용분야의장입니다.11장에서는빈도주의통계와함께통계학의쌍벽을이루는베이즈통계기법을설명하며,더유연한데이터분석으로이어갑니다.12장과13장에서는통계와관련이깊은기계학습과수리모형을만나봅니다.특히13장에는수리모형사례로감염병전파모델이등장해,마지막까지흥미를놓치지않는구성입니다.

이렇듯《통계101×데이터분석》에는현대데이터분석에반드시필요한지식이충분히채워져있습니다.통계기초개념부터가설검정,통계모형화는물론,나아가인과추론,베이즈통계,기계학습,수리모형에이르기까지,주제도그야말로다양합니다.이책한권이면통계의전체상과통계관련데이터분석방법들을조감하고,실전데이터분석을대비한기반을다질수있을것입니다.

[이런분에게강력추천!]
●통계는접한적있지만,어렵다고느끼거나아직명확히알지못하는사람
●지금부터데이터과학공부를본격적으로시작하려는사람
●다양한조사나연구를진행하면서,그일환으로데이터분석을하고있는사람
●통계분석방법이너무많아혼란스러우므로,전체모습을파악하고싶은사람