Pandas를 이용한 데이터 분석 실습 (라이브러리로 다양한 실제 데이터 분석 | 2 판)

Pandas를 이용한 데이터 분석 실습 (라이브러리로 다양한 실제 데이터 분석 | 2 판)

$53.06
Description
pandas는 파이썬에서 데이터 과학을 위한 강력하고 인기 있는 라이브러리다. 이 책은 주식 시장과 모의 해킹 시도, 기상 동향, 지진, 와인, 천문학 데이터 등 실제 데이터에 pandas를 이용한 데이터 분석 실습을 제공한다. pandas는 표 형식의 데이터를 효율적으로 다룰 수 있는 기능을 제공해 데이터 랭글링(data wrangling)과 시각화를 쉽게 할 수 있다. 데이터 분석 방법을 배운 다음에 다양한 응용 프로그램을 살펴본다. 파이썬 패키지를 구축한 다음, 데이터 시각화와 데이터 랭클링, 그리고 머신러닝을 위해 널리 사용되는 Matplotlib와 Seaborn, 넘파이(NumPy), Scikit-learn과 같은 추가 라이브러리를 사용해 주가 분석, 이상 탐지, 회귀, 군집화, 분류 문제에 도전한다. 이 책을 읽으면 파이썬으로 여러분만의 데이터 과학 프로젝트를 수행할 준비가 돼 있을 것이다.
저자

스테파니몰린

(StefanieMolin)
뉴욕블룸버그LP의데이터과학자이자소프트웨어엔지니어로서정보보호분야에서이상탐지(anomalydetection)와데이터수집을위한도구개발,지식공유와같이어려운문제를담당하고있다.AdTech와FinTech산업에서데이터과학,이상탐지솔루션설계,머신러닝에R과파이썬을활용하는데많은경험이있으며,컬럼비아대학의후재단공과및응용과학대학(FuFoundationSchoolofEngineeringandAppliedScience)에서운용연구(OR,OperationsResearch)로석사학위를받았으며경제학과기업가정신및혁신(entrepreneurshipandinnovation)을부전공했다.세계를여행하고,새로운요리법을개발하며,사람과컴퓨터간에사용되는새로운언어를배우는것을즐긴다.

목차

1부.pandas시작하기
1장데이터분석소개
__1장교재
__데이터분석기초
____데이터수집
____데이터랭글링
____탐색적데이터분석
____결론도출
__통계기초
____표본추출
____기술통계학
____추론통계학
__가상환경설정하기
____가상환경
____필수파이썬패키지설치하기
____왜pandas인가?
____주피터노트북
__요약
__연습문제
__참고자료
2장.pandasDataFrame으로작업하기
__2장교재
__pandas데이터구조
____시리즈
____인덱스
____DataFrame
__pandasDataFrame만들기
____파이썬객체로DataFrame만들기
____파일로DataFrame만들기
____데이터베이스로DataFrame만들기
____API에서DataFrame만들기
__DataFrame객체확인하기
____데이터검사하기
____데이터설명및요약하기
__데이터의부분집합선택하기
____열선택하기
____슬라이싱
____인덱싱
____필터링
__데이터추가하고제거하기
____새로운데이터만들기
____원하지않는데이터삭제하기
__요약
__연습문제
__참고자료
__데이터
2부.pandas로데이터분석하기
3장.pandas로데이터랭글링하기
__3장교재
__데이터랭글링이해하기
____데이터정제
____데이터변환
____데이터강화
__기온데이터를찾고수집하고자API사용하기
__데이터정제
____열이름바꾸기
____유형변환
____데이터재정렬,재인덱싱,정렬
__데이터재구성하기
____DataFrame전치
____DataFrame피보팅
____DataFrame멜팅
__중복,결측,유효하지않은데이터다루기
____문제가있는데이터찾기
____문제완화하기
__요약
__연습문제
__참고자료
4장.pandasDataFrame집계하기
__4장교재
__DataFrame을데이터베이스처럼작업하기
____DataFrame질의하기
____DataFrame병합하기
__데이터강화를위한DataFrame연산
____산술과통계
____데이터이산화
____함수적용하기
____윈도우계산
__파이프
__데이터집계
____DataFrame요약하기
____그룹으로집계하기
____피봇테이블과교차표
__시계열데이터로작업하기
____시간을기준으로선택하고필터링하기
____시차데이터이동하기
____차분데이터
____재표본추출
____시계열데이터병합하기
__요약
__연습문제
__참고자료
5장.pandas와matplotlib를사용한데이터시각화
__5장교재
__matplotlib소개
____기초
____그림구성요소
____추가옵션
__pandas로그림그리기
____시간의경과에따른변화
____변수간의관계
____분포
____개수와빈도수
__pandas.plotting모듈
____산포행렬
____시차그림
____자기상관그림
____붓스트랩그림
__요약
__연습문제
__참고자료
6장.seaborn과사용자정의기술로그림그리기
__6장교재
__seaborn으로고급그림그리기
____범주형데이터
____상관관계와히트맵
____회귀그림
____패시팅
__matplotlib로그림형식지정하기
____제목과축이름
____범례
____축형식지정하기
__시각화사용자정의하기
____참조선추가하기
____음영영역
____주석
____색상
____질감
__요약
__연습문제
__참고자료
3부.pandas를이용한실제분석
7장.금융분석-비트코인과주식시장
__7장교재
__파이썬패키지만들기
____패키지구조
____stock_analysis패키지개요
____UML다이어그램
__금융데이터수집하기
____StockReader클래스
____야후!금융에서과거데이터수집하기
__탐색적데이터분석
____Visualizer클래스패밀리
____주가시각화하기
____다중자산시각화하기
__금융상품의기술적분석
____StockAnalyzer클래스
____AssetGroupAnalyzer클래스
____자산비교하기
__과거데이터를사용한수익률모델링
____StockModeler클래스
____시계열분해
____ARIMA
____statsmodels의선형회귀
____모델비교
__요약
__연습문제
__참고자료
8장.규칙기반비정상행위탐지
__8장교재
__로그인시도시뮬레이션
____가정
____login_attempt_simulator패키지
____터미널에서시뮬레이션하기
__탐색적데이터분석
__규칙기반이상탐지구현
____백분율차
____튜키울타리
____Z-점수
____성능평가
__요약
__연습문제
__참고자료
4부.scikit-learn을이용한머신러닝소개
9장.파이썬에서머신러닝시작하기
__9장교재
__머신러닝개요
____머신러닝의종류
____일반적인작업
____파이썬으로머신러닝하기
__탐색적데이터분석
____레드와인품질데이터
__화이트와인과레드와인의화학성분데이터
____행성과외계행성데이터
__데이터전처리
____학습데이터와평가데이터
____데이터척도화및중심화
____데이터부호화
____대치
____추가변환기
____데이터파이프라인구축
__군집화
____k-평균
____군집결과평가
__회귀
____선형회귀
____회귀결과분석
__분류
____로지스틱회귀
____분류결과평가
__요약
__연습문제
__참고자료
10장.예측더잘하기-모델최적화
__10장교재
__격자검색을통한초매개변수튜닝
__특성공학
____상호작용항과다항식특성
____차원축소
____특성합집합
____특성중요도
__앙상블방법
____확률숲
____경사부스팅
____투표
__분류예측신뢰도검사
__계급불균형해결
____과소표본추출
____과대표본추출
__정칙화
__요약
__연습문제
__참고자료
11장.머신러닝기반비정상행위탐지
__11장교재
__시뮬레이션로그인시도데이터탐색
__비정상행위탐지에비지도학습모델활용
____고립숲
____국소특이점인자
____모델비교
__지도학습비정상행위탐지구현
____기준설정
____로지스틱회귀
__피드백되돌림과온라인학습통합
____PartialFitPipeline하위클래스만들기
____확률적경사하강분류기
__요약
__연습문제
__참고자료
5부.추가자료
12장.나아갈길
__데이터출처
____파이썬패키지
____데이터검색
____API
____웹사이트
__데이터작업연습
__파이썬연습
__요약
__연습문제
__참고자료
해답
부록

출판사 서평

◈이책에서다루는내용◈

◆데이터분석가와과학자가데이터를수집하고분석하는방법이해
◆파이썬으로데이터분석과데이터랭글링
◆여러출처의데이터를결합,그룹화그리고집계
◆pandas와matplotlib,seaborn으로데이터시각화
◆머신러닝알고리듬으로패턴을식별,예측
◆파이썬데이터과학라이브러리를사용해실제데이터세트분석
◆pandas로일반적인데이터표현과분석문제해결
◆분석코드를재사용할수있도록파이썬스크립트와모듈,그리고패키지생성

◈이책의대상독자◈

이책은데이터과학을프로젝트에적용하고데이터과학자와협업하거나소프트웨어엔지니어와함께머신러닝제품코드작업을진행하고자파이썬으로데이터과학을배우려는다양한수준의경험을가진사람들을대상으로한다.다음과같은경험이있다면이책을최대로활용할수있을것이다.
R이나SAS또는MATLAB과같은다른언어로데이터과학을경험하고여러분의작업을파이썬으로전환하고자pandas를배우려는사람,그리고파이썬경험이있으며파이썬을사용해데이터과학을배우려는사람모두가읽기에적합하다.

◈이책의구성◈

1장,‘데이터분석소개데이터분석과통계학의기초’에서는파이썬에서의데이터작업과주피터노트북(JupyterNotebook)사용을위한환경설정과정을안내한다.
2장,‘pandas데이터프레임으로작업하기’에서는pandas라이브러리를소개하고데이터프레임으로작업하기위한기본지식을설명한다.
3장,‘pandas로데이터랭글링하기’에서는데이터조작(datamanipulation)과정을설명하고API로통한데이터수집방법을소개하며pandas로데이터정제(datacleaning)와재구성(reshaping)을안내한다.
4장,‘pandas로데이터프레임집계하기’에서는데이터프레임에질의(query)하고병합하는방법과데이터프레임에서이동평균과집계를포함해복잡한계산을하는방법,시계열데이터를효율적으로다루는방법을다룬다.
5장,‘pandas와matplotlib로데이터시각화하기’에서는파이썬에서matplotlib라이브러리를사용해데이터를시각화하는방법과pandas객체에서직접시각화하는방법을소개한다.
6장,‘seaborn과사용자정의기술로그림그리기’에서는seaborn라이브러리를사용해긴형식의데이터를시각화하는방법과발표에사용할수있도록시각화를사용자에게맞게수정할수있는도구를소개하면서데이터시각화에관해설명을이어간다.
7장,‘금융분석-비트코인과주식시장’에서는주가분석을위한파이썬패키지를만들고자1장부터6장까지배운모든내용을다룬다.
8장,‘규칙기반이상탐지’에서는데이터를시뮬레이션한다음,이상탐지를위한규칙기반전략을사용해서웹사이트에인증을시도하려는해커를잡고자1장부터6장까지배운모든내용을다룬다.
9장,‘파이썬으로머신러닝시작하기’에서는머신러닝과Scikit-learn라이브러리를사용해머신러닝모델을구축하는방법을소개한다.
10장,‘예측더잘하기-모델최적화’에서는머신러닝모델의성능을조정하고개선하기위한전략을알아본다.

◈옮긴이의말◈

이책을번역하면서데이터분석을처음공부했을때가생각났다.학교에서배웠던기본통계학을다시공부하면서관련내용을코드로구현하고,그과정및결과를그래프로시각화하면서개념을다시잡으면서고생했었다.

이런책이있었더라면많은사람이역자처럼고생하지않고쉽게데이터분석에입문하지않을까생각하면서번역을시작했다.그러나번역을다끝내고편집된원고를다시읽어보면서이책에담겨있는많은내용을제대로번역하지못한것같아다소아쉬운생각이든다.기본적인내용이많이담겨있지만,더필요한통계학과코딩기본지식을더보충했더라면더좋은책이되었을것으로생각한다.하지만이는번역서로의범위를넘어설뿐만아니라데이터분석입문을위한이책의목적에도부합하지않는다.

저자도강조했듯이역자들또한데이터분석에서가장중요하다고생각하는것은‘왜데이터분석해야하는가?’이다.많은데이터분석관련정보는데이터를읽고,시각화를위해전처리하고시각화를하는과정에만집중하고있다.그러나데이터분석은데이터를시각화하는것이목적이아니라는것을재차강조하고싶다.데이터분석은데이터분석가를위한것이아니라기업활동에서의사결정권자에게필요한정보를데이터분석가가데이터를가공해전달하기위한도구라는것을명심해야한다.단순히데이터를시각화하는것에사로잡히지말고,우리가하려는‘목적’을정확히알고,목적달성에필요한데이터를수집해야하며,‘목적’을위해데이터를어떻게가공하고시각화해야만의사결정권자가필요한정보를한눈에알아보고이해할수있는가는고민해야한다.이것이역자들이생각하는데이터분석의목적이다.

이책을읽고실습하면서필요한배경지식은이책에각장의보충자료외에통계학등의관련서적이나MOOC등의강의를통해습득하길바란다.또한데이터시각화를위해서는동적으로시각화를할수있도록Tableau나Plotly등의오픈소스시각화도구를활용하는방법을추가로익히길바란다.