파이썬과 대스크를 활용한 고성능 데이터 분석 (대규모 데이터셋 분석, 시각화, 모델링부터 분산 앱 패키징과 배포까지)

파이썬과 대스크를 활용한 고성능 데이터 분석 (대규모 데이터셋 분석, 시각화, 모델링부터 분산 앱 패키징과 배포까지)

$28.00
Description
데이터 과학의 전체 워크플로를 단계별로 소개하는 종합 안내서
이 책은 대스크를 활용한 데이터 정리에서 배포에 이르기까지 데이터 과학의 일반적인 워크플로를 따라가는 여정으로 우리를 안내한다. 먼저 확장 가능한 컴퓨팅을 익히고 이를 대스크가 어떤 방식으로 활용하는지 살펴본다. 이어서 다양한 실제 데이터셋을 준비하고 분석, 시각화, 모델링하는 과정에서 대스크로 일반적인 데이터 과학 작업을 수행하는 방법을 실용 예제로 제공한다. 마지막으로 AWS에 자신만의 대스크 클러스터를 배포해 분석 코드를 확장하는 과정을 단계별로 소개한다.

주요 대상 독자는 초중급 데이터 과학자나 데이터 엔지니어다. 단일 머신의 한계를 벗어나는 크기의 데이터 작업을 아직 경험해보지 못했다면 특히 유용할 것이다. 파이스파크 등 다른 분산 프레임워크를 이전에 다뤄본 경험이 있다면 대스크만의 기능과 효율성을 비교해보는 것만으로도 도움이 될 것이다.
저자

제시대니얼

경험이풍부한파이썬개발자.지난3년간은특별히PyData스택(팬더스,넘파이,사이파이,사이킷런)과함께했다.2016년덴버대학교의비즈니스정보및분석학과부교수로‘데이터과학을위한파이썬’과목을개설하고가르쳤다.현재는덴버지역의미디어기술관련업체에서데이터과학팀을이끌고있다.

목차

PartI확장가능한컴퓨팅의빌딩블록

CHAPTER1왜확장가능한컴퓨팅이중요한가?
__1.1왜대스크인가?
__1.2DAG요리하기
__1.3확장성,동시성과복구
__1.4예제데이터셋소개
__1.5마치며

CHAPTER2대스크시작하기
__2.1데이터프레임API와의첫만남
__2.2DAG시각화하기
__2.3작업스케줄링
__2.4마치며

PartII대스크데이터프레임을이용해정형데이터작업하기

CHAPTER3대스크데이터프레임소개하기
__3.1왜데이터프레임을사용하는가?
__3.2대스크와팬더스
__3.3대스크데이터프레임의한계
__3.4마치며

CHAPTER4대스크데이터프레임으로데이터불러오기
__4.1텍스트파일에서데이터읽기
__4.2관계형데이터베이스에서데이터읽어오기
__4.3HDFS와S3에서데이터읽어오기
__4.4파케이형식으로데이터읽어오기
__4.5마치며

CHAPTER5데이터프레임의정리와변환
__5.1인덱스및축작업하기
__5.2결측값다루기
__5.3데이터기록하기
__5.4요소별연산
__5.5데이터프레임의필터링과재색인
__5.6데이터프레임들을조인하고연결하기
__5.7텍스트파일과파케이파일에데이터쓰기
__5.8마치며

CHAPTER6데이터프레임요약과분석
__6.1기술통계
__6.2내장된집계함수
__6.3사용자정의집계함수
__6.4롤링(윈도우)함수
__6.5마치며

CHAPTER7시본라이브러리로데이터프레임시각화하기
__7.1준비-리듀스-수집-플롯패턴
__7.2scatterplot함수와regplot함수로연속형관계시각화하기
__7.3바이올린플롯으로범주형관계시각화하기
__7.4히트맵으로두가지범주형관계시각화하기
__7.5마치며

CHAPTER8데이터셰이더로위치데이터시각화하기
__8.1데이터셰이더란무엇이며어떤원리로동작하는가?
__8.2대화식히트맵으로위치데이터플로팅하기
__8.3마치며

PartIII대스크의확장과배포

CHAPTER9백(Bags)과배열활용하기
__9.1Bags으로비정형데이터읽고파싱하기
__9.2요소변형,요소필터링,그리고요소폴딩하기
__9.3Bags으로부터배열및데이터프레임만들기
__9.4자연어툴킷으로병렬텍스트분석을위해Bags사용하기
__9.5마치며

CHAPTER10대스크ML을이용한머신러닝
__10.1대스크ML로선형모델만들기
__10.2대스크ML모델평가및튜닝
__10.3대스크ML모델저장하기
__10.4마치며

CHAPTER11대스크확장및배포
__11.1도커로아마존AWS에서대스크클러스터빌드하기
__11.2클러스터에서대스크작업실행하고모니터링하기
__11.3AWS에서대스크클러스터정리하기
__11.4마치며

APPENDIXA소프트웨어설치
__A.1아나콘다로추가패키지설치하기
__A.2아나콘다없이패키지설치하기
__A.3주피터노트북서버시작하기
__A.4NLTK구성하기

출판사 서평

파이썬병렬컴퓨팅을실현하는대스크로더쉽고효율적인데이터분석하기
파이썬을이용한데이터작업을경험해본사람이라면한번쯤팬더스와넘파이패키지를접해봤을것이다.하지만대스크라는패키지는조금낯설수있다.대스크는데이터과학분야에서매우유용하게활용할수있는도구다.특히이책은‘대용량데이터의병렬처리’라는주제를이해하기쉬운비유와상세한설명을통해쉽게풀어놓았다.기존에팬더스와넘파이를이용하여데이터를처리한경험이있는개발자라면코드예제를따라하기만해도대스크의기본원리와새로운기능을금방파악할수있을것이다.이책이대스크라는새로운‘강력한무기’를하나더장착할좋은기회가되기를바란다.
주요내용
● 대규모정형/비정형데이터작업하기
● 시본과데이터셰이더를사용한시각화
● 필요한알고리즘직접구현하기
● DaskDistributed로분산앱빌드
● 대스크앱패키징과배포