데이터 분석가가 반드시 알아야 할 모든 것 - 위키북스 데이터 사이언스 시리즈 96

데이터 분석가가 반드시 알아야 할 모든 것 - 위키북스 데이터 사이언스 시리즈 96

$40.02
Description
데이터 분석과 머신러닝의 각 업무 단계를 깊이 있게 이해하자!

이 책은 실무적인 관점에서 데이터 분석의 기초 체력이라 할 수 있는 통계학부터 머신러닝 기법까지 다룹니다. 비즈니스 문제 정의 단계부터 시작해서 탐색적 데이터 분석(EDA), 데이터 전처리와 파생변수 생성, 머신러닝 모델링 및 성능평가, 그리고 스토리텔링까지, 데이터 분석가라면 반드시 알아야 하는 모든 내용을 담고 있습니다.

실무자가 회사에서 바로 활용할 수 있도록 불필요한 수식과 이론을 최소화하고 핵심 개념을 쉽게 이해할 수 있게 구성했습니다. 데이터 분석 및 머신러닝의 전체 과정을 미니 프로젝트 기반으로 실습하면서 데이터를 올바르게 이해하고 의미 있는 비즈니스 인사이트를 얻는 방법을 배울 수 있습니다.

★ 이 책에서 다루는 내용 ★

◎ 데이터 분석에 필수적인 통계학의 기본 개념
◎ 데이터 편향과 인지적 편향
◎ 비즈니스 문제를 정의하고 데이터 분석의 목적을 도출하는 방법
◎ 데이터 분석 환경 구성
◎ 데이터 탐색과 시각화
◎ 데이터 전처리와 파생변수 생성
◎ 주요 머신러닝 알고리즘과 모델 성능 평가 기법
◎ A/B 테스트와 MAB

저자

황세웅

저자:황세웅
선문대학교SW융합대학AI소프트웨어학과교수로머신러닝,인공지능,파이썬프로그래밍을가르치며,여러기업의기술자문을맡고있다.연세대학교에서센서데이터를활용한실시간대중교통체계(Real-timePublicTransportationSystems)연구로박사학위를받았으며,약8년간코오롱,롯데그룹등에서데이터분석가및데이터사이언티스트로서다양한비즈니스도메인의데이터를분석하고추천시스템,수요예측알고리즘등의모델을구축및운영했다.

목차

[1부]데이터기초체력기르기

01장:통계학이해하기
1.1왜통계학을알아야할까?
1.2머신러닝과전통적통계학의차이
1.3통계학의정의와기원
1.4기술통계화추론통계
___1.4.1기술통계
___1.4.2추론통계

02장:모집단과표본추출
2.1모집단과표본,전수조사와표본조사
2.2표본조사를하는이유와데이터과학적용방법
2.3표본추출에서나타나는편향의종류
2.4인지적편향의종류
___2.4.1확증편향(confirmationbias)
___2.4.2기준점편향(anchoringbias)
___2.4.3선택지원편향(choice-supportivebias)
___2.4.4분모편향(denominatorbias)
___2.4.5생존자편향(survivorshipbias)
2.5머신러닝모델측면의편향과분산
2.6표본편향을최소화하기위한표본추출방법

03장:변수와척도
3.1변수의종류
3.2변수관계의종류
3.3척도의종류

04장:데이터의기술통계적측정
4.1중심성향의측정
4.2분산과표준편차
4.3산포도와범위,사분위수,변동계수
4.4왜도와첨도
___4.4.1왜도
___4.4.2첨도
4.5표준편차의경험법칙

05장:확률과확률변수
5.1확률의기본개념
5.2확률의종류
5.3분할과베이지안이론
___5.3.1분할
___5.3.2베이지안이론
5.4확률변수의개념과종류
5.5심슨의역설

06장:확률분포
6.1확률분포의정의와종류
6.2이산확률분포
___6.2.1균등분포
___6.2.2이항분포
___6.2.3초기하분포
___6.2.4포아송분포
6.3연속확률분포
___6.3.1정규분포
___6.3.2지수분포
6.4중심극한정리

07장:가설검정
7.1귀무가설과대립가설
7.2가설검정의절차
7.3가설검정의유의수준과p값
7.41종오류와2종오류

[2부]데이터분석준비하기

08장:분석프로젝트준비및기획
8.1데이터분석의전체프로세스
___8.1.1데이터분석의3단계
___8.1.2CRISP-DM방법론
___8.1.3SASSEMMA방법론
8.2비즈니스문제정의와분석목적도출
8.3분석목적의전환
8.4도메인지식
8.5외부데이터수집과크롤링

09장:분석환경세팅하기
9.1어떤데이터분석언어를사용하는것이좋을까?
9.2데이터처리프로세스이해하기
9.3분산데이터처리
___9.3.1HDFS
___9.3.2아파치스파크
9.4테이블조인과정의서그리고ERD
___9.4.1테이블조인
___9.4.2데이터단어사전
___9.4.3테이블정의서
___9.4.4ERD

10장:데이터탐색과시각화
10.1탐색적데이터분석
___10.1.1엑셀을활용한EDA
___10.1.2탐색적데이터분석실습
10.2공분산과상관성분석
___10.2.1공분산
___10.2.2상관계수
___10.2.3공분산과상관성분석실습
10.3시간시각화
___10.3.1시간시각화실습
10.4비교시각화
___10.4.1비교시각화실습
10.5분포시각화
___10.5.1분포시각화실습
10.6관계시각화
___10.6.1관계시각화실습
10.7공간시각화
___10.7.1공간시각화실습
10.8박스플롯
___10.8.1박스플롯실습

11장:데이터전처리와파생변수생성
11.1결측값처리
___11.1.1결측값처리실습
11.2이상치처리
___11.2.1이상치처리실습
11.3변수구간화(Binning)
___11.3.1변수구간화실습
11.4데이터표준화와정규화스케일링
___11.4.1데이터표준화와정규화스케일링실습
11.5모델성능향상을위한파생변수생성
___11.5.1파생변수생성실습
11.6슬라이딩윈도우데이터가공
___11.6.1슬라이딩윈도우실습
11.7범주형변수의가변수처리
___11.7.1범주형변수의가변수처리실습
11.8클래스불균형문제해결을위한언더샘플링과오버샘플링
___11.8.1언더샘플링과오버샘플링실습
11.9데이터거리측정방법
___11.9.1대표적인거리측정방법
___11.9.2데이터거리측정실습

[3부]데이터분석하기

12장:통계기반분석방법론
12.1분석모델개요
12.2주성분분석(PCA)
___12.2.1주성분분석실습
12.3공통요인분석(CFA)
___12.3.1공통요인분석실습
12.4다중공선성해결과섀플리밸류분석
12.5데이터마사지와블라인드분석
___12.5.1데이터마사지
___12.5.2블라인드분석
12.6Z-test와T-test
___12.6.1Z-test와T-test실습
12.7ANOVA(AnalysisofVariance)
___12.7.1ANOVA실습
12.8카이제곱검정(교차분석)
___12.8.1카이제곱검정실습

13장:머신러닝분석방법론
13.1선형회귀분석과ElasticNet(예측모델)
___13.1.1회귀분석의기원과원리
___13.1.2다항회귀(Polynomialregression)
___13.1.3Ridge와Lasso그리고ElasticNet
___13.1.4선형회귀분석과ElasticNet실습
13.2로지스틱회귀분석(분류모델)
___13.2.1로지스틱회귀분석실습
13.3의사결정나무와랜덤포레스트(예측/분류모델)
___13.3.1분류나무와회귀나무
___13.3.2의사결정나무모델의장단점
___13.3.3의사결정나무모델의과적합방지를위한방법
___13.3.4랜덤포레스트
___13.3.5의사결정나무와랜덤포레스트실습
13.4선형판별분석과이차판별분석(분류모델)
___13.4.1선형판별분석
___13.4.2이차판별분석
___13.4.3선형판별분석과이차판별분석실습
13.5서포트벡터머신(분류모델)
___13.5.1서포트벡터머신실습
13.6KNN(분류,예측모델)
___13.6.1KNN실습
13.7시계열분석(예측모델)
___13.7.1회귀기반시계열분석
___13.7.2ARIMA모델
___13.7.3시계열분석실습
13.8k-means클러스터링(군집모델)
___13.8.1k-means클러스터링실습
13.9연관규칙과협업필터링(추천모델)
___13.9.1연관규칙
___13.9.2콘텐츠기반필터링과협업필터링
___13.9.3연관규칙과협업필터링실습
13.10인공신경망(CNN,RNN,LSTM)
___13.10.1CNN
___13.10.2RNN과LSTM
___13.10.3인공신경망실습

14장:모델평가
14.1학습셋,검증셋,테스트셋과과적합해결
14.2주요교차검증방법
___14.2.1k-FoldCrossValidation
___14.2.2LOOCV(Leave-one-outCross-validation)
___14.2.3StratifiedK-foldCrossValidation
___14.2.4NestedCrossValidation
___14.2.5GridSearchCrossValidation
___14.2.6주요교차검증방법실습
14.3회귀성능평가지표
___14.3.1R-Square와AdjustedR-Square
___14.3.2RMSE(RootMeanSquareError)
___14.3.3MAE(MeanAbsoluteError)
___14.3.4MAPE(MeanAbsolutePercentageError)
___14.3.5RMSLE(RootMeanSquareLogarithmicError)
___14.3.6AIC와BIC
___14.3.7회귀성능평가지표실습
14.4분류,추천성능평가지표
___14.4.1혼동행렬
___14.4.2정확도,오분류율,정밀도,민감도,특이도그리고f-score
___14.4.3향상도테이블과향상도차트그리고향상도곡선
___14.4.4ROC곡선과AUC
___14.4.5수익곡선
___14.4.6Precisionatk,RecallatK그리고MAP
___14.4.7분류,추천성능평가지표실습
14.5A/B테스트와MAB
___14.5.1A/B테스트
___14.5.2MAB
14.6유의확률의함정
14.7분석가의주관적판단과스토리텔링

출판사 서평

데이터분석과머신러닝의각업무단계를깊이있게이해하자!

이책은실무적인관점에서데이터분석의기초체력이라할수있는통계학부터머신러닝기법까지다룹니다.비즈니스문제정의단계부터시작해서탐색적데이터분석(EDA),데이터전처리와파생변수생성,머신러닝모델링및성능평가,그리고스토리텔링까지,데이터분석가라면반드시알아야하는모든내용을담고있습니다.

실무자가회사에서바로활용할수있도록불필요한수식과이론을최소화하고핵심개념을쉽게이해할수있게구성했습니다.데이터분석및머신러닝의전체과정을미니프로젝트기반으로실습하면서데이터를올바르게이해하고의미있는비즈니스인사이트를얻는방법을배울수있습니다.

★이책에서다루는내용★

*데이터분석에필수적인통계학의기본개념
*데이터편향과인지적편향
*비즈니스문제를정의하고데이터분석의목적을도출하는방법
*데이터분석환경구성
*데이터탐색과시각화
*데이터전처리와파생변수생성
*주요머신러닝알고리즘과모델성능평가기법
*A/B테스트와MAB