파이썬 데이터 클리닝 쿡북 (파이썬과 판다스를 활용한 데이터 전처리)

파이썬 데이터 클리닝 쿡북 (파이썬과 판다스를 활용한 데이터 전처리)

$28.75
Description
데이터로부터 통찰을 얻으려면 데이터를 정제해야 한다. 데이터를 적절히 정제하지 않고 곧바로 분석에 들어갔다가는 잘못된 결과를 얻게 될 수 있기 때문이다. 《파이썬 데이터 클리닝 쿡북》은 파이썬으로 데이터를 다루고 정제할 때 사용할 수 있는 도구와 기법을 보여준다.

먼저 통상적인 데이터 소스로부터 데이터를 얻고 형태를 확인하는 일상적인 작업을 하는 법을 보여준다. 그런 다음, 데이터를 유용한 형태로 바꾸는 법을 가르친다. 원하는 데이터를 골라내고 요약함으로써 통찰을 얻는 법, 도출된 문제점을 해결하는 법도 알려준다. 이어서 누락값 처리, 오류 검사, 중복 데이터 제거, 이상값과 날짜를 다루는 법으로 진행한다. 지도학습으로 예상치 못한 값과 분류 오류를 식별하고, 탐색적 데이터 분석(EDA)을 위한 시각화를 통해 예상치 못한 값을 식별한다. 끝으로, 새로운 데이터에 대해서도 수정 없이 재사용할 수 있는 함수와 클래스를 작성한다.

이 책을 마친 후에는 데이터를 정제하고 문제를 진단하는 주요 기술을 갖게 될 것이다.

* 이 책에서 다루는 내용 *
◎ 다양한 데이터 소스로부터 데이터를 읽고 분석하는 법
◎ 데이터프레임, 열, 행의 어트리뷰트를 요약하는 법
◎ 데이터를 필터링하고 주어진 요건을 충족하는 열을 선택
◎ 날짜, 누락값이 있는 데이터 등 지저분한 데이터를 다루기
◎ 메서드 체이닝으로 파이썬 판다스 작업 생산성을 향상
◎ 시각화를 통해 통찰을 얻고 잠재적인 데이터 이슈를 식별
◎ 데이터의 변동을 파악하는 능력을 향상
◎ 사용자 정의 함수 및 클래스를 작성해 데이터 정제를 자동화
저자

마이클워커

30년이상여러교육기관에서데이터분석가로일했다.또한2006년부터대학에서데이터과학,연구방법,통계,컴퓨터프로그래밍을가르쳤다.그는공공부문및재단의보고서를생산하며학술지에게재할자료를분석한다.

목차

▣01장:표데이터를판다스로가져올때의데이터정제
___1.1CSV파일가져오기
___1.2엑셀파일가져오기
___1.3SQL데이터베이스의데이터를가져오기
___1.4SPSS,Stata,SAS데이터가져오기
___1.5R데이터가져오기
___1.6표데이터저장

▣02장:HTML과JSON을판다스로가져올때의데이터정제
___2.1단순한JSON데이터가져오기
___2.2API를통해복잡한JSON데이터가져오기
___2.3웹페이지의데이터가져오기
___2.4JSON데이터저장

▣03장:데이터측정
___3.1처음데이터를훑어보기
___3.2열을선택하고정돈하기
___3.3행을선택하기
___3.4범주형변수의빈도를생성하기
___3.5연속변수의요약통계생성하기

▣04장:데이터의부분집합에서누락값과이상값식별
___4.1누락값찾기
___4.2변수가1개인이상값식별하기
___4.3이변량관계의이상값과예상치못한값식별하기
___4.4부분집합을이용해변수간의논리적불일치를찾기
___4.5선형회귀를활용해유의한영향을
___4.6k-최근접이웃을활용해이상값을찾기
___4.7아이솔레이션포레스트를활용한이상탐지

▣05장:시각화를활용해예상치못한값을식별하기
___5.1히스토그램을활용해연속변수의분포를조사하기
___5.2박스플롯을활용해연속변수의이상값을식별하기
___5.3그룹별박스플롯으로특정그룹에서예상치못한값을드러내기
___5.4바이올린플롯으로분포형태와이상값을조사하기
___5.5산점도를활용해이변량관계를보기
___5.6라인플롯으로연속변수의추세를조사하기
___5.7상관행렬을기반으로히트맵을작성하기

▣06장:데이터정제,탐색및시리즈연산
___6.1판다스시리즈에서값을얻기
___6.2판다스시리즈에대한요약통계표시
___6.3시리즈값변경
___6.4조건에따라시리즈값을변경
___6.5문자열시리즈데이터평가와정제
___6.6날짜다루기
___6.7누락데이터식별과정제
___6.8k-최근접이웃으로누락값대치

▣07장:집계시지저분한데이터다루기
___7.1itertuples을활용한데이터순회(안티패턴)
___7.2넘파이배열의그룹별요약을계산
___7.3groupby를사용해데이터를그룹별로조직화하기
___7.4좀더복잡한집계함수를groupby와함께사용하기
___7.5사용자정의함수및apply와groupby
___7.6groupby를사용해데이터프레임의분석단위를바꾸기

▣08장:데이터프레임들을결합할때의데이터문제해결
___8.1데이터프레임을수직으로결합하기
___8.2일대일병합
___8.3병합기준열을여러개사용하기
___8.4일대다병합
___8.5다대다병합
___8.6병합루틴개발

▣09장:데이터타이딩과리셰이핑
___9.1중복행제거하기
___9.2다대다관계수정하기
___9.3stack과melt로넓은데이터를긴포맷으로리셰이핑
___9.4열그룹을녹이기
___9.5unstack과pivot을

▣10장:사용자정의함수와클래스로데이터정제를자동화
___10.1데이터를처음살펴보는함수
___10.2요약통계와빈도를표시하는함수
___10.3이상치와예상치못한값을식별하는함수
___10.4데이터집계와결합을위한함수
___10.5시리즈값을업데이트하는로직을담은클래스
___10.6표형태가아닌데이터구조를다루는클래스