데이터 해석학 입문 : 올바른 데이터 분석을 위한 의사결정 성공 방정식

데이터 해석학 입문 : 올바른 데이터 분석을 위한 의사결정 성공 방정식

$27.00
Description
데이터 취득ㆍ분석ㆍ해석ㆍ활용의 각 단계에서 알아야 할 기술을 포괄적으로 설명합니다
《데이터 해석학 입문》은 데이터를 분석해 배후에 있는 메커니즘을 해석하거나 데이터에 근거한 의사결정이나 문제 해결을 할 때 분석자가 알아둬야 할 지식을 알기 쉽게 설명한 책입니다. 데이터 분석이 잘 되는지는 분석 기술뿐 아니라 데이터의 질이나 취급방법, 해석방법에도 크게 영향을 받습니다. 그러나 실무에서 데이터나 분석의 질을 높게 유지하고 잘못된 해석을 하지 않기 위한 지식을 알기 쉽게 정리된 입문서는 아직 많지 않습니다.

이 책에서는 각종 분석기법뿐만 아니라 데이터의 편차나 편향에 관한 기초지식, 데이터에 다양한 편중을 발생시키는 행동심리학, 샘플링의 방법과 이론, 데이터 핸들링의 노하우, 각종 분석의 사고방식, 데이터 해석에서의 인지 편향이나 수리 모델링의 포인트, 시스템 운용 시 발생하는 문제 등 매우 폭넓은 시각에서 데이터 분석자가 꼭 알아둬야 할 지식을 정리해서 설명합니다.

기술에 대해서는 본질적인 생각의 부분에 특히 중점을 두어, 수학에 자신이 없는 독자분이라도 읽어 나갈 수 있도록 구성했습니다. 또 흥미로운 사례도 충분히 소개해 읽을거리로서의 재미도 추구했습니다. 데이터 사이언티스트를 목표로 하는 분은 물론, 연구로 데이터를 분석하고 싶은 학생, 데이터 분석에 대해 깊게 알고 싶은 비즈니스맨에게도 유용할 것입니다.

저자

에자키타카히로

저자:에자키타카히로
동경대학첨단과학기술연구센터특임강사.2011년동경대학공학부항공우주학과졸업.2015년동대학원박사과정수료(특례적용으로1년단축),공학박사.일본학술진흥회특별연구원,국립정보학연구소특임연구원,JST선행연구원,스탠포드대학객원연구원을거쳐2020년부터현직에있음.동경대학총장상,이노우에연구장려상등수상,수리적인해석기술을무기로통계물리학,뇌과학,행동경제학,생화학,교통공학,물류과학등폭넓은분야의문제를다루고있다.저서로《데이터분석을위한수리모델입문-데이터뒤에숨겨진본질파악하기(2020,위키북스)》가있다.

역자:손민규
소니반도체에서데이터분석업무와알고리즘및시스템개발업무와사원대상통계알고리즘강의를진행했으며,현재삼성전자에서데이터분석업무를하고있다.일본큐슈대학교에서인공지능의한분야인강화학습(ReinforcementLearning)알고리즘개발로박사학위를받았으며,관심분야는강화학습,인공신경망(NeuralNetwork),유전알고리즘(GeneticAlgorithm)등머신러닝(MachineLearning)알고리즘을활용한시스템개발이다.
-저서:《데이터분석을떠받치는수학(2018)》《기초부터시작하는강화학습/신경망알고리즘(2019)》
-번역:《가장쉬운딥러닝입문교실(2018)》《실전!딥러닝(2019)》《파이썬데이터분석실무테크닉100(2010)》
-감수:《정석으로배우는딥러닝(2017)》

목차

[1부]데이터의성질에관한기초지식

▣1장:관측은간단하지않다
1.1데이터관측
___대상에서정보추출
___쓰레기를넣으면쓰레기가나온다
___데이터의제약과표본추출
1.2측정의어려움
___필요한데이터가전부수집되는것은당연하지않다
___‘측정할수없는것’을측정할때
___측정에따른정보의누락
___관계가있는것처럼보이는지표를혼용하지않는다
___‘표준화’에따른정보의누락

▣2장:오차와변동
2.1오차의분해
___‘오차’란
___오차가크면정보가사라진다
___우연오차와편향
2.2오차와확률분포
___데이터의변동파악
___배후에있는참분포를생각하자
___평균과분산
2.3‘확률분포’정리
___수학적확률과통계적확률
___확률분포와확률밀도
___가장중요한확률분포‘정규분포’
___확률변수를서로더하면나타나는정규분포
___경험분포와이론분포
___오차의분포와데이터의분포
2.4우연오차의변동처리
___관측값의평균값을이용한변동억제
___통계적으로평가한다
___관측수를늘리는효과
___편차가작은지표에주목한다

▣3장:데이터에포함된편향
3.1측정기준에관한편향
___일관된측정기준
___일정한기준의어려움
___시간적으로변하는기준
3.2선택편향
___‘데이터가수집되고있다’라는의미
___여러가지선택편향
___우연
3.3관측개입에의한편향
___‘질문’은어렵다
___신뢰할수없는대답
___나중에이유붙이기
___관측에따른개입의영향
3.4데이터취급에따른편향
___데이터를왜곡시키는동기
___유리한데이터만수집
___인위적인실수

▣4장:중첩요인과인과관계
4.1두변수간의관계
___변수의상관관계
___변수간의인과관계란
___상관관계와인과관계
___변수간의관계성정리
4.2중첩을처리한다
___변수의얽힘
___개입과그한계
___무작위배정임상시험(RCT)
___관찰데이터와실험데이터
4.3무작위배정임상시험을할수없을때
___다중회귀분석
___로지스틱회귀
___회귀불연속설계
___성향점수매칭
___상황에따른방법의선택

▣5장:데이터표본추출방법론
5.1표본추출개념
___표본조사란
___일부데이터로전체를안다
___표본크기결정방법
5.2여러가지표본추출법
___무작위추출
___집락추출로표본추출비용을낮춘다
___무작위가아닌추출법
___결과를일반화할수있는가
5.3표본추출과편향
___범위오차
___응답에발생하는편향
___대상집단에의한선택편향

[2부]데이터의분석에관한기초지식

▣6장:데이터가공
6.1수집한데이터확인
___잘못된데이터에주의
___단위와자릿수
___이상치확인
___제거해도괜찮은이상치인가
6.2데이터의분석·조작
___데이터해석까지의흐름
___각처리에서에러를체크
___처리코드를통일한다
___분석코드관리
___소프트웨어이용
6.3데이터의보관·관리
___데이터의보관
___보안관리
___개인정보취급
___가명정보활용

▣7장:일변수데이터
7.1기술통계량
___양적변수와범주형변수
___대표적인값을계산한다
___산포를표현하는기술통계량
___기술통계량만으로파악할수없다
7.2데이터의분포를생각하자
___분포를보자
___목적에맞는가시화
___히스토그램의함정
7.3이론분포와연결짓는다
___이론분포를생각하자
___꼬리가두꺼운분포
___누적분포함수로경험분포와이론분포를비교
7.4시계열데이터란
___동일한양을계속관측한다
___주기성분분리
___과거의영향을자기상관으로본다

▣8장:변수간의관계를조사한다
8.1두개의양을비교한다
___어느쪽이큰가
___편차와결과의중요성
___가설검정의개념
___가설검정사용법
___t검정을이용한두그룹비교
___대응비교
8.2두개의양의상관관계를조사한다
___상관관계의유무
___상관계수의함정
___상관관계와가설검정
___효과크기와p값의해석

▣9장:다변량데이터해석
9.1탐색적분석과다중검정
___쌍으로놓고생각하자
___다중검정이란
___다중성을보정하자
___새로운데이터를수집한다
9.2분산분석과다중비교
___3개이상의비교
___여러개의요인을조사한다
___어디에차이가있는지알고싶은경우
___분산분석과다중비교
9.3상관관계구조를파헤친다
___편상관관계를본다
___요인분석
___좀더복잡한관계성
___주성분분석
___군집화
___계층적군집화
9.4여러가지방법정리
___설명하는변수·설명되는변수
___탐색적분석을하고싶은경우
___설명변수로서영향을보고싶은경우

▣10장:수리모델링
10.1수리모델링은무엇을하고있는가
___수리모델이란
___가정에서도출된이론
___수리모델의타당성
10.2목적에맞는모델링
___이해지향적모델링과응용지향적모델링
___이해지향형모델링의포인트
___응용지향형모델링의포인트
10.3모델을이용한‘예측’
___‘예측’이란
___예측하기쉬운문제,어려운문제
___데이터에서크게동떨어진상황은예측하기어렵다
___선형과비선형
___메커니즘의이해와예측
___데이터부족과이해지향형모델링
___이해지향형모델링과설명력

[3부]데이터의해석과활용에관한기초지식

▣11장:데이터분석의함정
11.1데이터가공의함정
___실수와비율
___심슨의역설
___평균값의동작
___극단적인값이섞여있는데이터
___불필요한제거
___그래프를왜곡하지않는다
11.2확보한데이터에의한함정
___다른시점에서데이터를수집한다
___질적데이터가중요한경우도
11.3분석목적에관련된함정
___결론이없는결론
___목적에따른결과의영향력
___오류의허용도
___모델을지나치게신뢰한다
___목적에맞는분석디자인

▣12장:데이터해석의함정
12.1분석결과의신뢰성
___재현성의문제
___같은데이터에서같은결론이나온다고할수없다
___데이터의재현성
___HARKing과p-hacking
___힐의기준
12.2해석할때생기는인지편향
___인간은마음대로패턴을만든다
___시간과인과의함정
___확률을파악하는것은어렵다
___실제확률과가용성편향
___확증편향
___문맥의효과
___잘못된데이터해석의예

▣13장:데이터활용의함정
13.1목적에근거한평가·의사결정
___상황이나목적에따라기본적인방침이다르다
___언제나예측을할수있는것은아니다
___수리모델은블랙박스인가
13.2데이터의수집과활용
___전처리비용을낮춘다
___데이터수집계획
___데이터를수집하는부담을생각하자
13.3실제세계와데이터분석
___데이터에의한관리주의
___조작된평가지표
___AI에의한차별조장
___피드백이있는시스템구축

출판사 서평

★이런분께추천합니다★

◎분석결과에자신이없는분
◎통계분석이무엇인지알고싶은분
◎분석의수학적모델의역할을알고싶은분