데이터 과학 효율을 높이는 데이터 클리닝 (불량 데이터의 문제를 발견하고 해결하는 방법)

데이터 과학 효율을 높이는 데이터 클리닝 (불량 데이터의 문제를 발견하고 해결하는 방법)

$41.89
Description
데이터 과학자라면 피할 수 없는 데이터 클리닝 작업은 수집과 분석, 정제에 이르기까지 데이터 과학의 효율을 높이는 일반적인 절차다. 기존 책들이 주로 첫 장에서만 다루던 데이터 준비 과정에 대한 필수 내용을 구체화했고, 실제 데이터 과학에서 응용할 수 있는 기술을 전달한다. 데이터 클리닝 작업을 수행하기 위한 도구와 기술을 설명하고, 새로 습득한 기술을 테스트하고 개선해볼 수 있도록 각 장의 끝 부분에 자세한 실습이 수록돼 있다.
저자

데이비드메르츠

DavidMertz
머신러닝과과학컴퓨팅분야에서개발자와데이터과학자를교육하는데전념하는KDM트레이닝의설립자다.아나콘다사(AnacondaInc.)의선임트레이너였으며데이터과학훈련프로그램을만들었다.심층신경망의등장으로로봇오버로드를훈련시키는쪽으로방향을틀었다.이전에D.E.쇼리서치에서8년동안일했으며파이썬소프트웨어재단의이사이기도했다.상표위원회와ScientificPythonWorkingGroup의공동의장직을유지하고있다.칼럼인「CharmingPython」과「XMLMatters」는한때파이썬분야에서가장널리읽히는기사였다.

목차

1부.데이터수집
1장.테이블형식
__정리
__CSV
____온전성검사
____좋은데이터,나쁜데이터,텍스트데이터
______나쁜데이터
______좋은데이터
__유해하다고간주되는스프레드시트
__SQLRDBMS
____데이터타입다듬기
____R에서반복
____SQL이잘못되는위치(및이것을확인하는방법)
__기타형식
____HDF5와NetCDF-4
______도구와라이브러리
____SQLite
____아파치파켓
__데이터프레임
____스파크/스칼라
____판다스와파생된래퍼
____Vaex
____R의데이터프레임(Tidyverse)
____R의데이터프레임(data.table)
____흥미로운Bash
__연습
____엑셀데이터정리
____SQL데이터정리
__대단원

2장.계층적형식
__JSON
____JSON의모습
____NaN처리와데이터타입
____JSONLines
____GeoJSON
____깔끔한지리
____JSON스키마
__XML
____사용자레코드
____키홀마크업언어
__구성파일
____INI와플랫사용자정의형식
____TOML
____YAML
__NoSQL데이터베이스
____문서지향데이터베이스
______누락된필드
______비정규화와비정규화의불만
____키/값저장소
__연습
____채워진영역탐색
____관계형모델생성
__대단원

3장.데이터소스의목적변경
__웹스크래핑
____HTML테이블
____테이블형식이아닌데이터
____커맨드라인스크래핑
__PDF
__이미지형식
____픽셀통계
____채널조작
____메타데이터
__바이너리직렬화된데이터구조
__사용자정의텍스트형식
____구조화된로그
____문자인코딩
__연습
____NPY파서향상
____웹트래픽스크래핑
__대단원

2부.오류의변천
4장이상징후감지
__결측데이터
____SQL
____계층적형식
____센티넬
__잘못코딩된데이터
__고정된한도
__아웃라이어
____z-스코어
____사분위수범위
__다변량아웃라이어
__연습
____유명한실험
____철자가틀린단어
__대단원

5장.데이터품질
__결측데이터
__편향적인트렌드
____편향이해
____편향감지
____기준선과비교
____벤포드의법칙
__클래스불균형
__정규화과스케일링
____머신러닝모델적용
____스케일링기술
____요인및샘플가중치
__주기성과자기상관관계
____도메인지식트렌드
____발견된주기
__비스포크검증
____콜레이션검증
____트랜스크립션검증
__연습
____데이터특성화
____오버샘플링된여론조사
__대단원

3부.수정과참조
6장.값보정
__전형적인값보정
____전형적인테이블형식데이터
____지역성보정
__트렌드보정
____트렌드타입
____더크게얽힌시계열
______데이터이해
______사용할수없는데이터제거
______일관성보정
______보간법
____비시간적트렌드
__샘플링
____언더샘플링
____오버샘플링
__연습
____대체트렌드보정
____다중특징밸런싱
__대단원

7장.피처엔지니어링
__날짜/시간필드
____날짜시간만들기
____규칙성부여
____중복된타임스탬프
____타임스탬프추가
__문자열필드
____퍼지매칭
____명시적범주
__문자열벡터
____분해
____로테이션과화이트닝
____차원축소
____시각화
__양자화와이진화
__원핫인코딩
__다항식특징
____합성특징생성
____특징선택
__연습
____간헐적발생
____레벨특성화
__대단원

4부.부록
A.마치며
__여러분이아는것
__여러분이아직모르는것
B.용어사전

출판사 서평

◈이책에서다루는내용◈

◆데이터를신중하게생각하고올바른질문을하는방법
◆개별데이터포인트와관련된문제데이터식별
◆데이터의체계적인형태에서문제데이터감지
◆데이터무결성및청결문제해결
◆분석및머신러닝작업을위한데이터준비
◆누락되거나신뢰할수없는데이터에값보정
◆데이터과학,데이터분석또는시각화목표에더적합한통합특징생성

◈이책의대상독자◈

자기주도적인독자나좀더체계적인학술,훈련또는인증과정에서사용하기적합하다.각장의하단에는독자나학생들에게이전자료에서방금배운것과관련된작업을완성하게요구하는연습이있다.

◈옮긴이의말◈

데이터과학이나데이터엔지니어링작업중80%는데이터수집,변환,정제와같은준비작업이다.나머지20%의작업이통계,머신러닝또는기타다양한분석기업을적용하는것이다.80%추정치가정확하지않더라도데이터를다루는대부분의시간과노력이여기에소비된다.
이처럼데이터의수집과변환,정제에이르기까지데이터과학의효율을높이는작업을데이터클리닝이라고하며,데이터과학자라면피할수없는작업이다.데이터클리닝은데이터과학및머신러닝작업을위한데이터파이프라인에서시간이많이걸리고중요한작업이지만가장적게언급되는부분이다.주로책이아닌경험이나시행착오를통해배우게되지만데이터클리닝에관한적합한책을찾을수있다면이러한시간과비용을줄일수있다.
하지만데이터과학관련서적들이주로첫째장에서만데이터준비과정을다루기때문에이론적토대에관한지식을제대로전달하지않고관련파이썬및R패키지를사용하는방법만보여준다.이책의전반적인구성은데이터과학실무에서개발할데이터파이프라인단계와유사한순서로배열돼있으며효율적인데이터과학을위한표준데이터파이프라인에서해결해야할데이터클리닝문제를다룬다.
광범위한테이블형식,계층적형식등여러타입의데이터형식을살펴보며결측값을보정하고신뢰할수없는데이터및통계적이상치를감지하고합성하는기술을설명한다.특히다양한형태의데이터에대한구조적문제와내용적문제를짚어보고유용하게정리하는방법의장단점을살펴본다.또한데이터준비과정에대한필수내용을구체화했고실제데이터과학에서응용할수있는기술을전달한다.데이터클리닝을수행하기위한도구와기술을설명하고새로습득한기술을테스트하고개선해지식이강화되도록각장의끝부분에서는자세한실습을제공하고있다.
이책에서다루는파이썬이나R코드를감안할때이러한언어에대한지식과경험이있는것은좋지만전부알고있을필요는없다.템플릿으로사용할수있는코드예제가많지만코드의이해나잘라내기및붙여넣기예제보다사고방식과사고과정을강조한다.즉,파이썬,셸스크립트,R을모르더라도몇줄의코드로얼마나많은일을할수있는지보는것만으로도도움이된다.
데이터과학이나AI분야에서일하는사람이라면누구나이책을읽고더정제되고유용한데이터를얻고자프로세스를구현하는방법을학습할수있을것이다.데이터를준비하는전처리과정과관련이있는독자에게이책을강력히추천하며전산학학위취득을위해데이터구조와알고리즘을배우는시기에읽을것을권장한다.