핵심만 요약한 통계와 머신러닝 파이썬 코드북

핵심만 요약한 통계와 머신러닝 파이썬 코드북

$34.00
Description
이 책은 데이터 과학(data science)에 입문할 때 기본적으로 알아야 할 통계학의 개념들과 주요 머신러닝 알고리즘들을 빠르게 학습하는 것을 목적으로 한다. 머신러닝을 학습하기에 앞서 탐색 적 자료 분석, 확률분포, 추정과 가설 검정, 공분산과 상관계수, 회귀 분석 등 기초 통계학을 살 펴본 후, 머신러닝의 지도 학습 알고리즘과 비지도 학습 알고리즘을 학습하도록 목차를 구성하였다.

지도 학습 알고리즘으로는 의사결정나무와 앙상블, KNN, SVM, 나이브 베이즈 분류, 인공신경망을 살펴보고, 비지도 학습 알고리즘으로는 차원 축소, 계층적/비계층적 군집 분석, 연관규칙학 습을 다룬다. 이밖에 시계열 분석에 대한 내용도 포함되어 있다.
이론적인 설명은 최대한 간략하게 소개하는 한편, 파이썬 코드를 통해 각종 개념들을 이해하고 다양한 알고리즘으로 모델을 구현하는 방법을 익히는 것에 중점을 두었다. 이 때문에 책의 분량의 상당 부분을 파이썬 예제 코드를 담는 것에 할애하였다. 또한, 각 학습 주제 별 연습문제를 통해 공부한 내용을 복습할 수 있다.
저자

조정임

이화여자대학교에서중어중문학을전공한후,스마트폰,시스템반도체기업등에서해외영업및마케팅업무를하였다.이후,현장의데이터들을효과적으로업무에활용할방법을찾고자노베이스비전공자의어려움을무릅쓰고데이터과학의세계에뛰어들었다.알아갈수록새로운것이쏟아져나오는이흥미로운탐험을계속하며,하루하루충실하게살고있다.

목차

1장탐색적데이터분석
1-1. 공통
데이터불러오기
데이터기본정보확인
기술통계
1-2. 질적변수
도수분포표, 상대도수분포표
상관계수: 스피어만순위상관계수, 켄달의타우
질적변수탐색시각화
1-3. 양적변수
도수분포표, 상대도수분포표
계산적대푯값
위치적대푯값
절대적산포도
상대적산포도
왜도, 첨도
상관계수: 피어슨의적률상관계수
양적변수탐색시각화
-연습문제와풀이
2장전처리
2-1. 결측치처리
결측치확인
Zero imputation & Constant imputation
대푯값으로채우는방법
단순확률대치법
다른변수들로부터모델링을하여결측값을예측하는방법
보간법
실제값과대치값비교
2-2. 이상치처리
절단
조정
클리핑
2-3. 클래스불균형처리
클래스불균형데이터생성하기
랜덤오버샘플링
SMOTE
Borderline SMOTE
K-means SMOTE
SVM SMOTE
ADASYN
오버샘플링된데이터로분류학습및결과비교
2-4. 변수변환
2-4-1. 수치형변수변환
표준화
최소최대스케일링
Robust scaling
Quantile scaling
Feature scaling한데이터로로지스틱회귀분석및결과비교
로그변환
거듭제곱변환
Target scaling한데이터로시각화, 선형회귀분석및결과비교
순위로변환
구간분할
2-4-2. 범주형변수변환
원핫인코딩
더미코딩
숫자로표현된범주형특성변환
레이블인코딩
특징해싱
빈도인코딩
-연습문제와풀이
3장표본추출, 데이터분할, 교차검증
3-1. 표본추출
단순랜덤추출법
계통추출법
집락추출법
층화추출법
3-2. 데이터분할
일반적데이터분할및홀드아웃방법
Shuffle split
K-fold 분할
Stratified K-fold 분할
Group K-fold 분할
3-3. 교차검증
분할샘플들로교차검증
파라미터후보들로교차검증
-연습문제와풀이
4장확률분포
4-1. 특수한이산형확률분포들
베르누이분포
이항분포
음이항분포
기하분포
초기하분포
포아송분포
4-2. 특수한연속형확률분포들
균일분포
정규분포와표준정규분포
지수분포
감마분포
카이제곱분포
t분포
F분포
-연습문제와풀이
5장추정과가설검정
5-1. 일표본(One-sample)
모평균의추정과가설검정: Z분포, t분포
1종오류와2종오류
모비율의추정과가설검정: Z분포
모분산의추정과가설검정: 카이제곱분포
5-2. 이표본(Two-sample)
독립표본모평균차이의추정과가설검정: Z분포, t분포
대응표본모평균차이의추정과가설검정: Z분포, t분포
모비율차이의추정과가설검정: Z분포
모분산비의추정과가설검정: F분포
5-3. 분산분석의가정
정규성검정
k표본등분산검정(Levene)
k표본등분산검정(Bartlett)
5-4. 분산분석: F분포
등분산인one-way ANOVA
이분산인one-way ANOVA
등분산인two-way ANOVA (모수인자-모수인자)
등분산인two-way ANOVA (모수인자-변량인자)
-연습문제와풀이
6장비모수검정
6-1. 카이제곱검정: 카이제곱분포
적합성검정: 다항모집단비율의차이
독립성검정: 한모집단내여러수준의차이
동질성검정: 여러(부)모집단간여러수준에대한차이
6-2. Run 검정: Run 검정표, Z분포
일표본Run 검정
이표본Run 검정
6-3. 이항변수데이터검정: 카이제곱분포
맥니머검정
코크란Q 검정
6-4. 부호, 순위데이터검정
일표본부호검정: 이항분포, Z분포
이표본부호검정: 이항분포, Z분포
일표본윌콕슨부호순위검정: 윌콕슨부호순위검정표, Z분포
이표본윌콕슨부호순위검정: 윌콕슨부호순위검정표, Z분포
윌콕슨순위합검정(만위트니U검정): 윌콕슨순위합검정표, Z분포
6-5. k표본순위데이터검정
크러스컬월리스검정: 크러스컬월리스검정표, 카이제곱분포
프리드먼검정: 프리드먼검정표, 카이제곱분포
-연습문제와풀이
7장공분산과상관계수
7-1. 공분산
7-2. 상관계수
-연습문제와풀이
8장회귀분석
8-1. 선형회귀
8-1-1. 단순선형회귀
8-1-2. 다중선형회귀
영향치판단
VIF 계산
변수선택과가능도
잔차분석
8-1-3. 규제선형회귀
릿지회귀
라쏘회귀
엘라스틱넷
8-1-4. 일반화선형회귀
로지스틱회귀
포아송회귀
8-1-5. 아웃라이어에강한선형회귀
Robust regression
Quantile regression
8-2. 비선형회귀
다항회귀
스플라인회귀
-연습문제와풀이
9장지도학습알고리즘
9-1. 의사결정나무와앙상블
9-1-1. 의사결정나무
9-1-2. 앙상블
배깅
부스팅
랜덤포레스트와Extra-trees
스태킹
9-2. KNN
9-3. SVM
9-4. 나이브베이즈분류
베이즈통계
나이브베이즈분류
9-5. 인공신경망
다층퍼셉트론
-연습문제와풀이
10장비지도학습알고리즘
10-1. 차원축소
주성분분석
요인분석
독립성분분석
음수미포함행렬분해
다차원척도법
원본데이터와차원축소데이터로적합한모델성능비교
10-2. 군집분석
10-2-1. 계층적군집분석
10-2-2. 비계층적군집분석
K-means clustering
DBSCAN
혼합분포군집
SOM
10-3. 연관규칙학습
-연습문제와풀이
11장모델평가지표와거리지표
11-1. 회귀모델평가지표
11-2. 분류모델평가지표
11-3. 군집모델평가지표
실제군집값이없는경우
실제군집값이있는경우
11-4. 거리지표
연속형변수의거리들
범주형변수의거리들
-연습문제와풀이
12장시계열분석
12-1. 시계열탐색적분석
12-1-1. 일반적EDA
12-1-2. 시계열에특화된EDA
정상성확인
자기상관확인
시계열분해
12-2. 시계열데이터전처리
시계열데이터다루기
시계열빈도변경(업샘플링, 다운샘플링)
결측치처리
차분과변환
12-3. 시계열모델링및평가
박스-젠킨스방법과ARIMA
자동차수선택방법과ARIMA
-연습문제와풀이

출판사 서평

대상독자
이책으로학습하기위해서는기본적인파이썬프로그래밍능력과데이터과학에대한기초지식이필요하다.이러한배경지식이없는독자라면,이책의내용을학습하기전에기초적인파이썬언어사용법을익히고,데이터과학에대한기본개념을살펴보기를권한다.
비록이러한배경지식이없더라도,이책의예제코드들을직접작성하며실행해보는동시에,그때그때등장하는모르는개념들을찾아가며학습하는방법도시도해볼수있다.

사용가이드
이책에나온파이썬개발환경(IntegratedDevelopmentEnvironment)은Jupyterlabversion3.0.12이다.컴퓨터에Jupyterlab을설치한후,각종라이브러리들을추가로설치해서이책의코드들을실행해볼수있다.
이방법이여의치않은경우에는별도의설치가필요없는Colaboratory를사용하는방법도있다.웹(https://colab.research.google.com/)을통해서코드를작성하고실행하기때문에디바이스나장소에구애받지않고사용이가능하다.기본적인라이브러리도설치가되어있기때문에처음개발환경을셋팅하느라소요되는시간을절약할수있다.다만일부라이브러리는추가로설치해야한다.
일부코드블럭에서는라이브러리나클래스를불러오는과정이생략되어있으므로,주요파이썬라이브러리의약자와클래스의출처를염두에두고학습하기를권한다.예를들어,NumPy는np,seaborn은sns로사용하며,Pandas에서DataFrame,read_csv등클래스를불러와사용하는경우이다.
이책의목차는학습의흐름에맞는순서대로구성이되어있지만,이미알고있는부분은건너뛰어도무방하다.각학습주제에대해추가적인정보가필요할수있으며,구글링이나다른도서를통해내용을보충하기를권한다.
어떤코드들은데이터나모델링과정에서무작위적(Random)요소가있어서책에나온결과대로출력이되지않을수도있지만,이는코드의문제가아닌자연스러운결과이다.
일부시각화출력은편집상편의를위해크기를조정하였기때문에실제출력크기와다를수있다.코드번호가중간에한두줄비는경우도편집된경우이며코드의정상적실행에는영향을미치지않는다.