데이터 분석가가 반드시 알아야 할 모든 것 : 파이썬 코드와 캐글 데이터셋으로 실습하는

데이터 분석가가 반드시 알아야 할 모든 것 : 파이썬 코드와 캐글 데이터셋으로 실습하는

$43.76
Description
데이터 분석과 머신러닝의 각 업무 단계를 깊이 있게 이해하자!
이 책은 데이터 분석의 기초 체력이라 할 수 있는 통계학부터 필수적인 머신러닝 기법까지를 다룹니다. 처음 비즈니스 문제를 정의하는 단계부터 데이터 준비, 모델링 및 평가, 그리고 스토리텔링까지, 데이터 분석가라면 반드시 알아야 하는 모든 내용이 이 책에 있습니다. 불필요한 수식과 이론을 최소화하고 비전공자라도 개념을 쉽게 이해할 수 있게 구성했습니다. 과거와 현재 데이터로 현상을 올바르게 이해하고 미래를 예측하여 의미 있는 비즈니스 인사이트를 얻는 방법을 이 책에서 배울 수 있습니다.

★ 이 책에서 다루는 내용 ★

◎ 데이터 분석에 필수적인 통계학의 기본 개념
◎ 데이터 편향과 인지적 편향
◎ 비즈니스 문제를 정의하고 데이터 분석의 목적을 도출하는 방법
◎ 데이터 분석 환경 구성
◎ 데이터 탐색과 시각화
◎ 주요 머신러닝 알고리즘과 모델 성능 평가 기법
◎ A/B 테스트와 MAB

저자

황세웅

저자:황세웅
선문대학교SW융합대학AI소프트웨어학과교수로머신러닝,인공지능,파이썬프로그래밍을가르치며,여러기업의기술자문을맡고있다.연세대학교에서센서데이터를활용한실시간대중교통체계(Real-timePublicTransportationSystems)연구로박사학위를받았으며,약8년간코오롱,롯데그룹등에서데이터분석가및데이터사이언티스트로서다양한비즈니스도메인의데이터를분석하고추천시스템,수요예측알고리즘등의모델을구축및운영했다.

목차

[1부]데이터기초체력기르기

▣1장:통계학이해하기
1.1왜통계학을알아야할까?
1.2머신러닝과전통적통계학의차이
1.3통계학의정의와기원
1.4기술통계화추론통계
__1.4.1기술통계
__1.4.2추론통계

▣2장:모집단과표본추출
2.1모집단과표본,전수조사와표본조사
2.2표본조사를하는이유와데이터과학적용방법
2.3표본추출에서나타나는편향의종류
2.4인지적편향의종류
__2.4.1확증편향(confirmationbias)
__2.4.2기준점편향(anchoringbias)
__2.4.3선택지원편향(choice-supportivebias)
__2.4.4분모편향(denominatorbias)
__2.4.5생존자편향(survivorshipbias)
2.5머신러닝모델측면의편향과분산
2.6표본편향을최소화하기위한표본추출방법

▣3장:변수와척도
3.1변수의종류
3.2변수관계의종류
3.3척도의종류

▣4장:데이터의기술통계적측정
4.1중심성향의측정
4.2분산과표준편차
4.3산포도와범위,사분위수,변동계수
4.4왜도와첨도
__4.4.1왜도
__4.4.2첨도
4.5표준편차의경험법칙

▣5장:확률과확률변수
5.1확률의기본개념
5.2확률의종류
5.3분할과베이지안이론
__5.3.1분할
__5.3.2베이지안이론
5.4확률변수의개념과종류
5.5심슨의역설

▣6장:확률분포
6.1확률분포의정의와종류
6.2이산확률분포
__6.2.1균등분포
__6.2.2이항분포
__6.2.3초기하분포
__6.2.4포아송분포
6.3연속확률분포
__6.3.1정규분포
__6.3.2지수분포
6.4중심극한정리

[2부]데이터분석준비하기

▣7장:가설검정
7.1귀무가설과대립가설
7.2가설검정의절차
7.3가설검정의유의수준과p값
7.41종오류와2종오류

▣8장:분석프로젝트준비및기획
8.1데이터분석의전체프로세스
__8.1.1데이터분석의3단계
__8.1.2CRISP-DM방법론
__8.1.3SASSEMMA방법론
8.2비즈니스문제정의와분석목적도출
8.3분석목적의전환
8.4도메인지식
8.5외부데이터수집과크롤링

▣9장:분석환경세팅하기
9.1어떤데이터분석언어를사용하는것이좋을까?
9.2데이터처리프로세스이해하기
9.3분산데이터처리
__9.3.1HDFS
__9.3.2아파치스파크
9.4테이블조인과정의서그리고ERD
__9.4.1테이블조인
__9.4.2데이터단어사전
__9.4.3테이블정의서
__9.4.4ERD

▣10장:데이터탐색과시각화
10.1탐색적데이터분석
__10.1.1엑셀을활용한EDA
__10.1.2탐색적데이터분석실습
10.2공분산과상관성분석
__10.2.1공분산
__10.2.2상관계수
__10.2.3공분산과상관성분석실습
10.3시간시각화
__10.3.1시간시각화실습
10.4비교시각화
__10.4.1비교시각화실습
10.5분포시각화
__10.5.1분포시각화실습
10.6관계시각화
__10.6.1관계시각화실습
10.7공간시각화
__10.7.1공간시각화실습
10.8박스플롯
__10.8.1박스플롯실습

▣11장:데이터전처리와파생변수생성
11.1결측값처리
__11.1.1결측값처리실습
11.2이상치처리
__11.2.1이상치처리실습
11.3변수구간화(Binning)
__11.3.1변수구간화실습
11.4데이터표준화와정규화스케일링
__11.4.1데이터표준화와정규화스케일링실습
11.5모델성능향상을위한파생변수생성
__11.5.1파생변수생성실습
11.6슬라이딩윈도우데이터가공
__11.6.1슬라이딩윈도우실습
11.7범주형변수의가변수처리
__11.7.1범주형변수의가변수처리실습
11.8클래스불균형문제해결을위한언더샘플링과오버샘플링
__11.8.1언더샘플링과오버샘플링실습
11.9데이터거리측정방법
__11.9.1대표적인거리측정방법
__11.9.2데이터거리측정실습

[3부]데이터분석하기

▣12장:통계기반분석방법론
12.1분석모델개요
12.2주성분분석(PCA)
__12.2.1주성분분석실습
12.3공통요인분석(CFA)
__12.3.1공통요인분석실습
12.4다중공선성해결과섀플리밸류분석
12.5데이터마사지와블라인드분석
__12.5.1데이터마사지
__12.5.2블라인드분석
12.6Z-test와T-test
__12.6.1Z-test와T-test실습
12.7ANOVA(AnalysisofVariance)
__12.7.1ANOVA실습
12.8카이제곱검정(교차분석)
__12.8.1카이제곱검정실습

▣13장:머신러닝분석방법론
13.1선형회귀분석과ElasticNet(예측모델)
__13.1.1회귀분석의기원과원리
__13.1.2다항회귀(Polynomialregression)
__13.1.3Ridge와Lasso그리고ElasticNet
__13.1.4선형회귀분석과ElasticNet실습
13.2로지스틱회귀분석(분류모델)
__13.2.1로지스틱회귀분석실습
13.3의사결정나무와랜덤포레스트(예측/분류모델)
__13.3.1분류나무와회귀나무
__13.3.2의사결정나무모델의장단점
__13.3.3의사결정나무모델의과적합방지를위한방법
__13.3.4랜덤포레스트
__13.3.5의사결정나무와랜덤포레스트실습
13.4선형판별분석과이차판별분석(분류모델)
__13.4.1선형판별분석
__13.4.2이차판별분석
__13.4.3선형판별분석과이차판별분석실습
13.5서포트벡터머신(분류모델)
__13.5.1서포트벡터머신실습
13.6KNN(분류,예측모델)
__13.6.1KNN실습
13.7시계열분석(예측모델)
__13.7.1회귀기반시계열분석
__13.7.2ARIMA모델
__13.7.3시계열분석실습
13.8k-means클러스터링(군집모델)
__13.8.1k-means클러스터링실습
13.9연관규칙과협업필터링(추천모델)
__13.9.1연관규칙
__13.9.2콘텐츠기반필터링과협업필터링
__13.9.3연관규칙과협업필터링실습
13.10인공신경망(CNN,RNN,LSTM)
__13.10.1CNN
__13.10.2RNN과LSTM
__13.10.3인공신경망실습

▣14장:모델평가
14.1학습셋,검증셋,테스트셋과과적합해결
14.2주요교차검증방법
__14.2.1k-FoldCrossValidation
__14.2.2LOOCV(Leave-one-outCross-validation)
__14.2.3StratifiedK-foldCrossValidation
__14.2.4NestedCrossValidation
__14.2.5GridSearchCrossValidation
__14.2.6주요교차검증방법실습
14.3회귀성능평가지표
__14.3.1R-Square와AdjustedR-Square
__14.3.2RMSE(RootMeanSquareError)
__14.3.3MAE(MeanAbsoluteError)
__14.3.4MAPE(MeanAbsolutePercentageError)
__14.3.5RMSLE(RootMeanSquareLogarithmicError)
__14.3.6AIC와BIC
__14.3.7회귀성능평가지표실습
14.4분류,추천성능평가지표
__14.4.1혼동행렬
__14.4.2정확도,오분류율,정밀도,민감도,특이도그리고f-score
__14.4.3향상도테이블과향상도차트그리고향상도곡선
__14.4.4ROC곡선과AUC
__14.4.5수익곡선
__14.4.6Precisionatk,RecallatK그리고MAP
__14.4.7분류,추천성능평가지표실습
14.5A/B테스트와MAB
__14.5.1A/B테스트
__14.5.2MAB
14.6유의확률의함정
14.7분석가의주관적판단과스토리텔링

출판사 서평

★이책에서다루는내용★

◎데이터분석에필수적인통계학의기본개념
◎데이터편향과인지적편향
◎비즈니스문제를정의하고데이터분석의목적을도출하는방법
◎데이터분석환경구성
◎데이터탐색과시각화
◎주요머신러닝알고리즘과모델성능평가기법
◎A/B테스트와MAB
이책의총서(70)