러닝 스파크 (아파치 스파크를 이용한 데이터 분석 및 머신러닝 알고리즘)

러닝 스파크 (아파치 스파크를 이용한 데이터 분석 및 머신러닝 알고리즘)

$32.53
Description
스파크 창시자 '마테이 자하리아'가 추천하는 스파크 입문서의 결정판!
《러닝 스파크: 번개같이 빠른 데이터 분석》의 제2판이 출간되었습니다.
데이터가 점점 더 커지고 점점 더 빨리 생성되며 다양한 형식으로 제공되면서, 분석이나 머신러닝을 위한 대규모 처리 또한 요구되고 있습니다. 이러한 대규모 워크로드를 효율적으로 처리할 수 있는 대안이 바로 아파치 스파크입니다.
스파크 3.x를 포함하여 업데이트된 이 개정판은 데이터 엔지니어와 데이터 과학자에게 스파크의 구조와 통합이 중요한 이유를 보여줍니다. 간단한 것에서부터 복잡한 것까지 데이터 분석을 수행하고, 머신러닝 알고리즘의 사용 방법을 체계적으로 설명합니다.
단계별 연습, 코드 예제와 노트북 등을 통해 다음을 수행할 수 있습니다.

■ 파이썬, SQL, 스칼라, 자바를 이용한 고차원 정형 API 학습
■ 스파크 작업과 SQL 엔진의 이해
■ 스파크 설정 및 스파크 UI를 사용하여 스파크 작업을 검사, 튜닝, 디버깅
■ JSON, 파퀘이, CSV, 에이브로, ORC, 하이브, S3, 카프카와 같은 데이터 소스에 연결
■ 정형 스트리밍을 사용하여 배치 및 스트리밍 데이터에 대한 분석 수행
■ 오픈소스 델타 레이크 및 스파크로 안정적인 데이터 파이프라인 구축
■ MLlib을 사용하여 머신러닝 파이프라인을 개발하고 MLflow를 사용하여 모델 재생산 및 배포
저자

줄스담지

JulesS.Damji
데이터브릭스(Databricks)의선임개발자애드버킷이자MLflow의공헌자다.

목차

옮긴이머리말x
베타리더후기xii
추천사xiv
시작하며xv
표지에대하여xxi

CHAPTER1아파치스파크소개:통합분석엔진1
스파크의시작1
아파치스파크란무엇인가?4
통합된분석7
개발자의경험15

CHAPTER2아파치스파크다운로드및시작19
1단계:아파치스파크다운로드19
2단계:스칼라혹은파이스파크셸사용22
로컬머신사용하기24
3단계:스파크애플리케이션개념의이해26
트랜스포메이션,액션,지연평가29
스파크UI31
첫번째단독애플리케이션34
요약42
CHAPTER3아파치스파크의정형화API43
스파크:RDD의아래에는무엇이있는가44
스파크의구조확립45
데이터프레임API48
데이터세트API71
데이터프레임vs데이터세트77
스파크SQL과하부의엔진79
요약85

CHAPTER4스파크SQL과데이터프레임:내장데이터소스소개86
스파크애플리케이션에서스파크SQL사용하기87
SQL테이블과뷰93
데이터프레임및SQL테이블을위한데이터소스98
요약119

CHAPTER5스파크SQL과데이터프레임:외부데이터소스와소통하기120
스파크SQL과아파치하이브120
스파크SQL셸,비라인및태블로로쿼리하기126
외부데이터소스134
PostgreSQL137
데이터프레임및스파크SQL의고차함수144
일반적인데이터프레임및스파크SQL작업150
요약163

CHAPTER6스파크SQL과데이터세트164
자바와스칼라를위한단일API164
데이터세트작업167
데이터세트및데이터프레임을위한메모리관리175
데이터집합인코더176
데이터세트사용비용178
요약180

CHAPTER7스파크애플리케이션의최적화및튜닝181
효율적으로스파크를최적화및튜닝하기181
데이터캐싱과영속화191
스파크조인의종류196
스파크UI들여다보기206
요약213

CHAPTER8정형화스트리밍214
아파치스파크의스트림처리엔진의진화214
정형화스트리밍의프로그래밍모델218
정형화스트리밍쿼리의기초220
실행중인스트리밍쿼리의내부227
스트리밍데이터소스와싱크233
데이터트랜스포메이션243
상태정보유지스트리밍집계246
스트리밍조인255
임의의상태정보유지연산263
성능튜닝272
요약274

CHAPTER9아파치스파크를통한안정적인데이터레이크구축275
최적의스토리지솔루션의중요성275
데이터베이스277
데이터레이크279
레이크하우스:스토리지솔루션진화의다음단계282
아파치스파크및델타레이크로레이크하우스구축285
요약296

CHAPTER10MLlib을사용한머신러닝298
머신러닝이란무엇인가?299
머신러닝파이프라인설계302
하이퍼파라미터튜닝322
요약338

CHAPTER11아파치스파크로머신러닝파이프라인관리,배포및확장339
모델관리339
MLlib을사용한모델배포옵션346
비MLlib모델에스파크활용352
요약358

CHAPTER12에필로그:아파치스파크3.0359
스파크코어와스파크SQL359
정형화스트리밍368
파이스파크,판다스UDF,판다스함수API370
변경된기능들373
요약376

찾아보기379