파이썬으로 데이터 마이닝 시작하기 (데이터의 수집, 로딩, 변환, 클러스터링, 예측까지)

파이썬으로 데이터 마이닝 시작하기 (데이터의 수집, 로딩, 변환, 클러스터링, 예측까지)

$21.29
Description
요즘 가장 인기 있는 프로그래밍 언어인 파이썬을 활용한 데이터 마이닝 기법을 소개한다. 다양한 예제와 데이터 마이닝 기법으로 유용한 인사이트를 어떻게 얻어낼 수 있는지를 배운다. 파이썬 라이브러리를 사용한 데이터 시각화 기법도 함께 소개한다.
저자

나단그리넬치

인텔소속의엔지니어로,인공지능컨설팅부서에서데이터마이닝과분석전문가로일하고있다.지난10년동안스타트업과제조분야대기업에서파이썬분석업무를해왔다.분석분야에새로입문한신입사원과엔지니어를정기적으로멘토링하고있으며,인텔에서수시로강연을통해지식을공유하고있다.일리노이주에반스턴에위치한노스웨스턴대학교에서물리화학을전공했으며,작은분자의진동신호표면향상을주제로박사논문을썼다.미국남동부에서자랐으며,가족의반은아칸소출신이고나머지반은플로리다출신이다.

목차

1장.데이터마이닝과파이썬도구입문
__기술적,예측적,처방적분석
__이책에서다루는것과다루지않는것
__추가적인학습을위한추천도서
__데이터마이닝을위한파이썬환경설정
__아나콘다와콘다패키지관리자설치하기
____리눅스에설치하기
____윈도우에서설치하기
____맥OS에서설치하기
__스파이더IDE시작하기
__주피터노트북실행하기
__고성능파이썬설치하기
__추천라이브러리와설치방법
__추천라이브러리
__요약

2장.기본용어와종합적사례
__기본적데이터용어
__샘플스페이스
__변수의종류
__데이터형태
__기본적요약통계량
__파이썬을활용한데이터마이닝예제
____데이터를메모리에로딩하기:pandas를통해데이터보기와데이터관리하기
____데이터플롯과탐구:seaborn의능력체험하기
____데이터변환:scikit-learn을활용한PCA와LDA
____분리를계량화하기:k-means클러스터링과실루엣스코어
____의사결정혹은예측
__요약

3장.데이터의수집,탐구,시각화
__데이터소스의형태와pandas에데이터적재하기
____데이터베이스
____기본적SQL질의
____디스크
____웹소스
____URL
____scikit-learn이나seaborn에포함된데이터사용
__pandas로데이터접근,검색,점검하기
__seaborn에서의기본적플롯
__데이터시각화를위한인기있는형태의플롯들
____스캐터플롯
____히스토그램
____조인트플롯
____바이올린플롯
____페어플롯
__요약

4장.분석을위한데이터클리닝과준비
__scikit-learn변환API
__입력데이터클리닝
____결측값
____결측값찾기와제거하기
____결측값을대체하기위한임퓨팅
__특징스케일링
____정규화
____표준화
__카테고리데이터처리
____순서적인코딩
____원핫인코딩
____레이블인코딩
__고차원데이터
__차원감소
____특징선택
____특징필터링
____래퍼기법
__변환
____PCA
____LDA
__요약

5장.데이터의그룹화와클러스터링
__클러스터링개념소개
__그룹의위치
____유클리디안공간(센트로이드)
____비유클리디안공간(메디오이드)
__유사성
____유클리디안공간
____비유클리디안공간
__종료조건
____알려진숫자의그룹의경우
____알려지지않은숫자의그룹의경우
____품질스코어와실루엣스코어
__클러스터링기법들
____평균분리
____k-means
____계층적클러스터링
____클러스터의숫자를찾기위해덴드로그램재사용하기
____덴드로그램그리기
__밀도클러스터링
__스펙트럼클러스터링
__요약

6장.회귀와분류를이용한예측
__scikit-learn추정기API
__예측개념소개
____예측모델표기법
__수학적도구
____손실함수
____기울기하강
____품질체계적합하기
__회귀
____회귀모델예측지표
____회귀예제데이터
____선형회귀
____다변량형태로확장
____처벌회귀를활용한규칙화
____규칙화처벌
__분류
____분류예제데이터
____분류모델예측의지표
____복수클래스분류
____로지스틱회귀
____규칙화된로지스틱회귀
____서포트벡터머신
____C를사용한소프트마진
____커널트릭
____트리기반분류
____의사결정트리
____랜덤포레스트
__예측모델의튜닝
____교차검증
____검증데이터개론
____K-fold기법을이용한복수의검증데이터셋
____초모수튜닝을위한그리드서치
__요약

7장.고급주제:데이터처리파이프라인의생성과사용
__당신의분석파이프라인생성
____scikit-learn의파이프라인객체
__모델구현하기
____pickle모듈을통해모델을연속화하고저장하기
____연속화된모델을로딩하고예측하기
__파이썬에서의구현문제
__요약

출판사 서평

★이책에서다루는내용★

■데이터셋요약및데이터시각화기법탐구
■분석작업을위한데이터수집과구성
■데이터포인트를그룹에할당하고클러스터링으로시각화하기
■데이터에대한연속적및카테고리적예측학습
■데이터클리닝,노이즈제거,차원감소
■scikit-learn의파이프라인특징을사용한데이터처리모델연속화
■파이썬의pickle모듈을이용한데이터처리모델구현

★이책의대상독자★

파이썬을활용한데이터마이닝과분석분야의초보자를대상으로한다.독자가파이썬프로그래밍경험이거의없으며고등학교수준이상의수학실력을갖추지못한것으로가정하고서술했다.이책에사용된모든파이썬라이브러리는많은플랫폼에서무료로구할수있으므로,인터넷에접속할수있다면책에나오는개념을배우고연습할수있을것이다.

★이책의구성★

처음세장은데이터마이닝프로젝트의구조적인내용을다룬다.여기에는데이터마이닝파이썬환경의생성,다양한소스로부터의데이터로딩,다운스트림분석을위한데이터변환을포함한다.나머지장에서는주로개념을다루며,신입사원을교육하는것처럼대화체로서술했다.
1장.‘데이터마이닝과파이썬도구입문’에서는독자의소프트웨어환경에서파이썬을시작하는법을다룬다.파이썬,pandas,scikit-learn,seaborn같은인기있는라이브러리를설치하는법을알려준다.환경을설정하고나면다음설명을따라갈수있을것이다.
2장.‘기본용어와종합적사례’에서는데이터마이닝에서요구되는기본적통계와데이터용어를소개한다.이장의끝에서는종합적예제를다루고,다음장에서소개할여러기법을보여준다.2장을읽으면분석이의미하는사고의과정과업무에서맞닥뜨리게될문제를해결하기위한절차를좀더명확히이해할수있다.
3장.‘데이터의수집,탐구,시각화’에서는데이터베이스,디스크,웹에서데이터를불러오는기본적인방법을살펴본다.기본적인SQL질의와pandas의액세스및검색함수를다루며,seaborn을사용한주요플롯형태를소개한다.
4장.‘분석을위한데이터클리닝및준비’에서는데이터클리닝과차원감소의기본을다룬다.어떻게미지의값을처리하고,입력데이터를리스케일하고,카테고리변수를다룰지이해하게될것이다.또한고차원데이터의문제를필터,래퍼(wrapper),변환기법등의특징감소기법을사용해문제를어떻게해결하는지알아본다.
5장.‘데이터의그룹화와클러스터링’에서는데이터마이닝을위한클러스터링알고리즘설계배경과사고과정을설명한다.그리고실무에서사용하는클러스터링기법을소개하고모의데이터를사용해이들을비교한다.이내용을배우면평균분리,밀도,연결성에기반한클러스터링알고리즘간의차이를알게될것이다.또한데이터의플롯을해석하고클러스터링이여러분의데이터마이닝프로젝트에어느정도적합한지에대한인사이트를얻을수있다.
6장.‘회귀와분류를이용한예측’에서는손실함수와기울기하강을통한예측모델학습을다룬다.그다음과대적합,과소적합및적합과정에서의모델정규화를위한페널티접근의개념을살펴본다.그리고표준적인회귀및분류기법들과각각의정규화된버전을다룬다.교차검증과그리드검색을포함한모델튜닝의베스트프랙티스를다루면서마무리한다.
7장.‘고급주제:데이터처리파이프라인의생성과사용’에서는scikit-learn기법을사용해파이프라인을생성하고적용하는전략을살펴본다.이어서구현시점에서일어나는파이썬관련문제를다룬다.

★옮긴이의말★

데이터마이닝의개념은학계와산업계에소개된지오래됐다.하지만고급통계패키지나컴퓨터프로그래밍을경험해보지못한사람도쉽게이해하고간편하게활용할수있는안내서는지금껏찾기힘들었다.
이책은데이터마이닝패키지혹은컴퓨터프로그래밍관련경험이없는독자도차근차근쉽게따라할수있도록쓰여졌다.알기쉬운예제와파이썬프로그램을활용한해결방법을제공하고있으므로,데이터마이닝에관심이있는학생과직장인에게좋은입문서가될것이다.
이책이우리나라에서데이터마이닝의대중화를앞당기는데조금이나마도움이되길바란다.