Description
스파크 창시자가 알려주는 스파크 활용과 배포, 유지 보수의 모든 것
오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서입니다. 스파크 사용법부터 배포, 유지 보수하는 방법까지 포괄적으로 익힐 수 있습니다. 스파크 2의 개선점과 새로운 기능을 자세히 설명합니다. 구조화된 스파크 API의 특징과 공통 기능은 물론이고, 엔드 투 엔드 스트리밍 애플리케이션을 구축하는 새로운 고수준 API인 구조적 스트리밍을 함께 살펴봅니다. 이 책을 읽으면 스파크를 모니터링, 튜닝, 디버깅하는 데 필요한 기본 지식을 습득할 수 있습니다. 나아가 스파크의 확장 머신러닝 라이브러리인 MLlib을 사용하는 방법과 시나리오를 익힐 수 있습니다.

저자

마테이자하리아

지은이:빌체임버스(BillChambers)
2014년에몇몇연구프로젝트에스파크를도입했습니다.데이터브릭스에서제품관리를맡고있으며사용자들이다양한아파치스파크애플리케이션을개발할수있는환경을만들기위해노력하고있습니다.또한정기적으로스파크와관련된블로그를작성하고콘퍼런스발표와밋업에참여하고있습니다.UC버클리대학교정보대학원에서정보관리와시스템분야의석사학위를취득했습니다.  

지은이:마테이자하리아(MateiZaharia)
2009년에아파치스파크프로젝트를시작했고UC버클리대학교박사과정동안스파크와함께했습니다.버클리의여러연구원및외부공동작업자와함께스파크의핵심API를설계하고스파크커뮤니티를성장시키고있으며구조적API와구조적스트리밍같은새로운개념을만드는데참여하고있습니다.2013년마테이와버클리스파크팀은오픈소스프로젝트의성장을도우려데이터브릭스를설립하고상업용제품을제공하기시작했습니다.현재데이터브릭스의최고기술전문가로일하고있으며스탠퍼드대학교의컴퓨터과학분야조교수를맡아대규모시스템과인공지능분야를연구하고있습니다.2013년에UC버클리대학교에서컴퓨터과학박사학위를취득했습니다.마테이는아파치메소스프로젝트의초기멤버이자아파치하둡의커미터입니다.마테이의연구내용은2014ACMDoctoralDissertationAward및VMwareSystemsResearchAward를수상하며인정받았습니다.
  

옮긴이:우성한
현재빅데이터솔루션전문업체인KTNexR의책임연구원으로재직중이다.다수의기업에서모바일게임,SNS서비스,결제시스템등다양한S/W분야의개발경험이있으며,2011년빅데이터의매력에빠져빅데이터분야의오픈소스들을다루기시작했다.
KTNexR의대표적인빅데이터분석솔루션NDAP개발에참여했으며,지금은아키텍처설계부터프론트엔드/백엔드개발까지수행하는풀스택엔지니어로서실시간빅데이터처리및분석솔루션인LeanStream개발에참여하고있다.  

옮긴이:이영호
현재ktNexR에서R&D2팀장을맡고있습니다.시스템통합과빅데이터솔루션개발을수행하던멤브로스대표를역임했습니다.ktNexR에빅데이터엔지니어로입사한후살아있는빅데이터를경험했습니다.다수의배치/실시간빅데이터프로젝트에참여했으며,기술서적번역과빅데이터강의를즐깁니다.현재팀원들과함께아파치스파크기반의빅데이터처리솔루션을개발하고있으며빅데이터의대중화에큰관심을가지고있습니다.  

옮긴이:강재원
현재ktNexR에서DataScience팀장을맡고있습니다.SPSSKorea에서분석솔루션을기반으로다양한도메인에서분석컨설턴트로활동했습니다.ktNexR에데이터사이언티스트로합류한후국내최초금융권빅데이터분석프로젝트를성공적으로수행하면서지금까지다양한기업을대상으로데이터분석의가치와최적방법론을전파하려노력하고있습니다.최근에는스파크를기반으로텐서플로등과같은다양한프레임워크를활용한분석방법론을연구하고있습니다.  

목차

Part1빅데이터와스파크간단히살펴보기

CHAPTER1아파치스파크란
1.1아파치스파크의철학
1.2스파크의등장배경
1.3스파크의역사
1.4스파크의현재와미래
1.5스파크실행하기
1.6정리

CHAPTER2스파크간단히살펴보기
2.1스파크의기본아키텍처
2.2스파크의다양한언어API
2.3스파크API
2.4스파크시작하기
2.5SparkSession
2.6DataFrame
2.7트랜스포메이션
2.8액션
2.9스파크UI
2.10종합예제
2.11정리

CHAPTER3스파크기능둘러보기
3.1운영용애플리케이션실행하기
3.2Dataset:타입안정성을제공하는구조적API
3.3구조적스트리밍
3.4머신러닝과고급분석
3.5저수준API
3.6SparkR
3.7스파크의에코시스템과패키지
3.8정리

Part2구조적API:DataFrame,SQL,Part2Dataset

CHAPTER4구조적API개요
4.1DataFrame과Dataset
4.2스키마
4.3스파크의구조적데이터타입개요
4.4구조적API의실행과정
4.5정리

CHAPTER5구조적API기본연산
5.1스키마
5.2컬럼과표현식
5.3레코드와로우
5.4DataFrame의트랜스포메이션
5.5정리

CHAPTER6다양한데이터타입다루기
6.1API는어디서찾을까
6.2스파크데이터타입으로변환하기
6.3불리언데이터타입다루기
6.4수치형데이터타입다루기
6.5문자열데이터타입다루기
6.6날짜와타임스탬프데이터타입다루기
6.7null값다루기
6.8정렬하기
6.9복합데이터타입다루기
6.10JSON다루기
6.11사용자정의함수
6.12HiveUDF
6.13정리

CHAPTER7집계연산
7.1집계함수
7.2그룹화
7.3윈도우함수
7.4그룹화셋
7.5사용자정의집계함수
7.6정리

CHAPTER8조인
8.1조인표현식
8.2조인타입
8.3내부조인
8.4외부조인
8.5왼쪽외부조인
8.6오른쪽외부조인
8.7왼쪽세미조인
8.8왼쪽안티조인
8.9자연조인
8.10교차조인(카테시안조인)
8.11조인사용시문제점
8.12스파크의조인수행방식
8.13정리

CHAPTER9데이터소스
9.1데이터소스API의구조
9.2CSV파일
9.3JSON파일
9.4파케이파일
9.5ORC파일
9.6SQL데이터베이스
9.7텍스트파일
9.8고급I/O개념
9.9정리

CHAPTER10스파크SQL
10.1SQL이란
10.2빅데이터와SQL:아파치하이브
10.3빅데이터와SQL:스파크SQL
10.4스파크SQL쿼리실행방법
10.5카탈로그
10.6테이블
10.7뷰
10.8데이터베이스
10.9select구문
10.10고급주제
10.11다양한기능
10.12정리

CHAPTER11Dataset
11.1Dataset을사용할시기
11.2Dataset생성
11.3액션
11.4트랜스포메이션
11.5조인
11.6그룹화와집계
11.7정리

Part3저수준API

CHAPTER12RDD
12.1저수준API란
12.2RDD개요
12.3RDD생성하기
12.4RDD다루기
12.5트랜스포메이션
12.6액션
12.7파일저장하기
12.8캐싱
12.9체크포인팅
12.10RDD를시스템명령으로전송하기
12.11정리

CHAPTER13RDD고급개념
13.1키-값형태의기초(키-값형태의RDD)
13.2집계
13.3cogroup
13.4조인
13.5파티션제어하기
13.6사용자정의직렬화
13.7정리

CHAPTER14분산형공유변수
14.1브로드캐스트변수
14.2어큐뮬레이터
14.3정리

Part4운영용애플리케이션

CHAPTER15클러스터에서스파크실행하기
15.1스파크애플리케이션의아키텍처
15.2스파크애플리케이션의생애주기(스파크외부)
15.3스파크애플리케이션의생애주기(스파크내부)
15.4세부실행과정
15.5정리

CHAPTER16스파크애플리케이션개발하기
16.1스파크애플리케이션작성하기
16.2스파크애플리케이션테스트
16.3개발프로세스
16.4애플리케이션시작하기
16.5애플리케이션환경설정하기
16.6정리

CHAPTER17스파크배포환경
17.1스파크애플리케이션실행을위한클러스터환경
17.2클러스터매니저
17.3기타고려사항
17.4정리

CHAPTER18모니터링과디버깅
18.1모니터링범위
18.2모니터링대상
18.3스파크로그
18.4스파크UI
18.5디버깅및스파크응급처치
18.6정리

CHAPTER19성능튜닝
19.1간접적인성능향상기법
19.2직접적인성능향상기법
19.3정리

Part5스트리밍

CHAPTER20스트림처리의기초
20.1스트림처리란
20.2스트림처리의핵심설계개념
20.3스파크의스트리밍API
20.4정리

CHAPTER21구조적스트리밍의기초
21.1구조적스트리밍의기초
21.2핵심개념
21.3구조적스트리밍활용
21.4스트림트랜스포메이션
21.5입력과출력
21.6스트리밍DatasetAPI
21.7정리

CHAPTER22이벤트시간과상태기반처리
22.1이벤트시간처리
22.2상태기반처리
22.3임의적인상태기반처리
22.4이벤트시간처리의기본
22.5이벤트시간윈도우
22.6스트림에서중복데이터제거하기
22.7임의적인상태기반처리
22.8정리

CHAPTER23운영환경에서의구조적스트리밍
23.1내고장성과체크포인팅
23.2애플리케이션변경하기
23.3메트릭과모니터링
23.4알림
23.5스트리밍리스너를사용한고급모니터링
23.6정리

Part6고급분석과머신러닝

CHAPTER24고급분석과머신러닝개요
24.1고급분석에대한짧은입문서
24.2스파크의고급분석툴킷
24.3고수준MLlib의개념
24.4MLlib실제로사용하기
24.5모델배포방식
24.6정리

CHAPTER25데이터전처리및피처엔지니어링
25.1사용목적에따라모델서식지정하기
25.2변환자
25.3전처리추정자
25.4고수준변환자
25.5연속형특징처리하기
25.6범주형특징처리하기
25.7텍스트데이터변환자
25.8특징조작하기
25.9특징선택
25.10고급주제
25.11정리

CHAPTER26분류
26.1활용사례
26.2분류유형
26.3MLlib의분류모델
26.4로지스틱회귀
26.5의사결정트리
26.6랜덤포레스트와그래디언트부스티드트리
26.7나이브베이즈
26.8분류와자동모델튜닝을위한평가기
26.9세부평가지표
26.10일대다분류기
26.11다층퍼셉트론
26.12정리

CHAPTER27회귀
27.1활용사례
27.2MLlib에서제공하는회귀모델
27.3선형회귀
27.4일반화선형회귀
27.5의사결정트리
27.6랜덤포레스트와그래디언트부스티드트리
27.7고급방법론
27.8평가기와모델튜닝자동화
27.9평가지표
27.10정리

CHAPTER28추천
28.1활용사례
28.2교차최소제곱알고리즘을사용하여협업필터링구현하기
28.3추천을위한평가기
28.4성과평가지표
28.5빈발패턴마이닝
28.6정리

CHAPTER29비지도학습
29.1활용사례
29.2모델확장성
29.3k-평균
29.4이분법k-평균
29.5가우시안혼합모델
29.6잠재디리클레할당
29.7정리

CHAPTER30그래프분석
30.1그래프작성하기
30.2그래프쿼리하기
30.3모티프찾기
30.4그래프알고리즘
30.5정리

CHAPTER31딥러닝
31.1딥러닝이란
31.2스파크에서딥러닝을사용하는방법
31.3딥러닝라이브러리
31.4딥러닝파이프라인을사용한간단한예제
31.5정리

Part7에코시스템

CHAPTER32언어별특성:파이썬(PySpark)과R(SparkR,sparklyr)
32.1PySpark
32.2R로스파크사용하기
32.3정리

CHAPTER33에코시스템과커뮤니티
33.1스파크패키지
33.2커뮤니티
33.3정리

부록A스파크설치및실행
부록B더블린원정대:스파크서밋2017더블린참관기

출판사 서평

스파크활용과배포,유지보수까지전체적흐름을포괄적으로안내하는바이블

이책은쉽게실행할수있는스파크예제와모든유형의기본사용사례를다루는스파크종합안내서입니다.스파크의기초적인내용부터처리,운용,관리,모니터링그리고그래프와머신러닝에이르기까지다양한내용을종합적으로설명합니다.특히스파크2.0기반의고수준신규API인DataFrame,Dataset,스파크SQL,구조적스트리밍(StructuredStreaming)을집중적으로소개합니다.스파크를사용하려는데이터과학자와데이터엔지니어에게많은도움이될내용으로구성했습니다.



이책의번역품질을최고로높이기위해동분서주했던역자들의뼈를깎는노고를언급하지않을수없습니다.매일밤을새우다시피하며방대한분량의원서를수십차례에걸쳐다듬고소스코드를수정했으며,열명도넘는업계실무자들을치킨으로유혹(!)하여수차례에걸친가혹한베타리딩과정을거쳤습니다.원서에는없는'실행환경구축'에필요한구체적인내용과'스파크서밋2017더블린참관기'도따로집필하여부록으로실었습니다.한편으로는독자가조금이라도더친근하고편안한느낌으로읽을수있는문장을만들고자노력했습니다.이러한담금질을거쳐탄생한이번역서가여러분을경이로운스파크의세계로편안하게인도해줄것입니다.




관련도서

●아파치스파크

●9가지사례로익히는고급스파크분석(2판)

●하둡완벽가이드(4판)