스파크를 활용한 실시간 처리 (실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기)

스파크를 활용한 실시간 처리 (실시간 데이터 처리를 위한 고수준 스트리밍 API 마스터하기)

$38.00
Description
한 권으로 정리하는 스파크 스트리밍
데이터를 실시간으로 처리하는 방법을 안다면, 분석 도구로 빠르게 인사이트를 얻을 수 있다. 이 책은 아파치 스파크를 기반으로 인메모리 프레임워크를 사용해 스트리밍 데이터를 처리하는 방법을 학습한다. 또한, 스파크로 어떻게 배치 작업하듯이 스트리밍 작업을 수행할 수 있는지를 다룬다.

이 책은 아파치 스파크의 이론과 예제를 학습하는 데 중점을 두었으며, 스파크가 현재 지원하는 스파크 스트리밍 라이브러리와 최신 구조적 스트리밍 API를 배울 수 있다. 스트리밍 애플리케이션에 아파치 스파크를 적용하려는 독자라면 스트림 처리의 기본 개념부터 머신러닝을 포함한 고급 기술까지 다양한 인사이트를 얻을 수 있을 것이다.


● 스트림 처리의 기본 개념과 다양한 스트리밍 아키텍처
● 구조적 스트리밍과 스트림 처리의 이해
● 스파크 API를 이용한 스파크 스트리밍
● 스파크 API를 이용한 애플리케이션 생성 및 운영
● 근사 알고리즘과 머신러닝 알고리즘으로 고급 스파크 스트리밍 구현하기
● 아파치 스톰, 아파치 플링크, 카프카 스트림 등 다른 스트림 프로젝트와 아파치 스파크 비교하기
저자

제러드마스

(GerardMaas)
라이트벤드Lightbend의수석엔지니어로서구조적스트리밍과기타확장가능한스트림처리기술을라이트밴드플랫폼에원활하게통합하는작업을하고있다.이전에클라우드네이티브IoT스타트업에서일하면서데이터처리팀을이끌고스파크스트리밍을처리량의한계까지밀어붙인스트리밍파이프라인을구축했다.당시그는스파크스트리밍성능을튜닝하기위한첫번째포괄적인가이드를제시했다.데이터과학거버넌스,클라우드네이티브IoT플랫폼,통신플랫폼및확장가능한API를구축하는여러스타트업및대기업에서주도적인역할을수행했으며,기술컨퍼런스의정기연사이고,크고작은오픈소스프로젝트에컨트리뷰터로활동하고있다.베네수엘라의시몬볼리바르대학교에서컴퓨터공학학위를취득했다.트위터에서는@maasg로찾을수있다.

목차

[Part1아파치스파크를사용한스트림처리의기본]

CHAPTER1스트림처리소개
1.1스트림처리란
1.2스트림처리예제
1.3데이터처리의확장
1.4분산스트림처리
1.5아파치스파크소개
1.6다음엔무엇을배울까

CHAPTER2스트림처리모델
2.1소스와싱크
2.2서로정의된불변의스트림
2.3변환과집계
2.4윈도우집계
2.5비상태및상태기반처리
2.6상태기반스트림
2.7예제:스칼라에서로컬상태기반연산
2.8비상태또는상태기반스트리밍
2.9시간의영향
2.10요약

CHAPTER3스트리밍아키텍처
3.1데이터플랫폼의구성요소
3.2아키텍처
3.3스트리밍애플리케이션에서배치처리구성요소의사용
3.4참조스트리밍아키텍처
3.5스트리밍과배치알고리즘
3.6요약

CHAPTER4스트림처리엔진으로서의아파치스파크
4.1두API이야기
4.2스파크의메모리사용
4.3지연시간에대한이해
4.4처리량지향처리
4.5스파크의폴리글랏API
4.6데이터분석의빠른구현
4.7스파크에대해더알아보기
4.8요약

CHAPTER5스파크의분산처리모델
5.1클러스터매니저를활용한아파치스파크실행
5.2스파크자체클러스터매니저
5.3분산시스템에서의복원력과내결함성이해
5.4데이터전송의미론
5.5마이크로배칭과한번에한요소
5.6마이크로배치와한번에한레코드처리방식을더욱가깝게만들기
5.7동적배치간격
5.8구조적스트리밍처리모델

CHAPTER6스파크의복원력모델
6.1스파크의탄력적인분산데이터셋
6.2스파크컴포넌트
6.3스파크의내결함성보장
6.4요약

[Part2구조적스트리밍]

CHAPTER7구조적스트리밍소개
7.1구조적스트리밍의첫걸음
7.2배치분석
7.3스트리밍분석
7.4요약

CHAPTER8구조적스트리밍프로그래밍모델
8.1스파크초기화
8.2소스:스트리밍데이터수집
8.3스트리밍데이터변환
8.4싱크:결과데이터출력
8.5요약

CHAPTER9구조적스트리밍작동
9.1스트리밍소스소비하기
9.2애플리케이션로직
9.3스트리밍싱크에쓰기
9.4요약

CHAPTER10구조적스트리밍소스
10.1소스의이해
10.2사용가능한소스
10.3파일소스
10.4카프카소스
10.5소켓소스
10.6레이트소스

CHAPTER11구조적스트리밍싱크
11.1싱크의이해
11.2사용가능한싱크
11.3파일싱크
11.4카프카싱크
11.5메모리싱크
11.6콘솔싱크
11.7foreach싱크

CHAPTER12이벤트시간기반스트림처리
12.1구조적스트리밍에서의이벤트시간에대한이해
12.2이벤트시간의사용
12.3처리시간
12.4워터마크
12.5시간기반윈도우집계
12.6레코드중복제거
12.7요약

CHAPTER13고급상태기반작업
13.1예제:차량유지보수관리
13.2상태작동을통한그룹의이해
13.3MapGroupsWithState의사용
13.4FlatMapGroupsWithState사용
13.5요약

CHAPTER14구조적스트리밍애플리케이션모니터링
14.1스파크메트릭하위시스템
14.2StreamingQuery인스턴스
14.3StreamingQueryListener인터페이스

CHAPTER15실험영역:연속형처리와머신러닝
15.1연속형처리
15.2머신러닝

[Part3스파크스트리밍]

CHAPTER16스파크스트리밍소개
16.1DStream추상화
16.2스파크스트리밍애플리케이션의구조
16.3요약

CHAPTER17스파크스트리밍프로그래밍모델
17.1DStream의기본추상화로서의RDD
17.2DStream변환의이해
17.3요소중심의DStream변환
17.4RDD중심의DStream변환
17.5계산변환
17.6구조변경변환
17.7요약

CHAPTER18스파크스트리밍실행모델
18.1대량동기화아키텍처
18.2리시버모델
18.3리시버가없는모델또는직접모델
18.4요약

CHAPTER19스파크스트리밍소스
19.1소스의유형
19.2일반적으로사용되는소스
19.3파일소스
19.4큐소스
19.5소켓소스
19.6카프카소스
19.7더많은소스를찾을수있는곳

CHAPTER20스파크스트리밍싱크
20.1출력연산
20.2내장형출력연산
20.3프로그래밍가능한싱크로서foreachRDD사용하기
20.4서드파티출력연산

CHAPTER21시간기반스트림처리
21.1윈도우집계
21.2텀블링윈도우
21.3슬라이딩윈도우
21.4윈도우사용과더긴배치간격사용
21.5윈도우기반감소
21.6가역윈도우집계
21.7슬라이싱스트림
21.8요약

CHAPTER22임의상태기반스트리밍연산
22.1스트림규모의상태기반
22.2updateStateByKey
22.3updateStateByKey의한계
22.4mapwithState를사용한상태기반연산소개
22.5mapWithState사용하기
22.6mapWithState를사용한이벤트시간스트림계산

CHAPTER23스파크SQL로작업하기
23.1스파크SQL
23.2스파크스트리밍에서스파크SQL함수에접근하기
23.3유휴데이터처리
23.4조인최적화
23.5스트리밍애플리케이션에서참조데이터셋업데이트하기
23.6요약

CHAPTER24체크포인팅
24.1체크포인트사용법의이해
24.2DStream체크포인팅
24.3체크포인트에서복구
24.4체크포인팅비용
24.5체크포인트튜닝

CHAPTER25스파크스트리밍모니터링
25.1스트리밍UI
25.2스트리밍UI를이용하여잡성능이해하기
25.3RESTAPI모니터링
25.4지표하위시스템
25.5내부이벤트버스
25.6요약

CHAPTER26성능튜닝
26.1스파크스트리밍의성능밸런스
26.2잡의성능에영향을미치는외부요소
26.3성능을향상시킬수있는방법
26.4배치간격조정하기
26.5고정속도스로틀링을통한데이터수신제한
26.6백프레셔
26.7동적스로틀링
26.8캐싱
26.9추측적실행

[Part4고급스파크스트리밍기술]

CHAPTER27스트리밍근사및샘플링알고리즘
27.1정확성,실시간그리고빅데이터
27.2정확성,실시간그리고빅데이터삼각형
27.3근사알고리즘
27.4해싱과스케칭:소개
27.5고유요소계산:HyperLogLog
27.6카운팅요소빈도:최소스케치카운트
27.7순위와분위수:T-다이제스트
27.8요소수줄이기:샘플링

CHAPTER28실시간머신러닝
28.1나이브베이즈를이용한스트리밍분류
28.2의사결정트리소개
28.3Hoeffding트리
28.4온라인K-평균을사용한스트리밍클러스터링

[Part5아파치스파크를넘어]

CHAPTER29기타분산실시간스트림처리시스템
29.1아파치스톰
29.2아파치플링크
29.3카프카스트림
29.4클라우드에서

CHAPTER30미리살펴보기
30.1연결상태유지
30.2밋업에참석하기
30.3아파치스파크프로젝트에기여하기

출판사 서평

아파치스파크를사용한스트림처리에오신것을환영합니다

2009년캘리포니아대학교버클리캠퍼스U의마테이자하리아가처음시작한이래아파치스파크프로젝트와아파치스파크를사용한스트림처리가얼마나많은성과를거두었는지살펴보는것은매우흥미로운일입니다.아파치스파크는빅데이터처리를위한최초의통합엔진으로출발하여모든빅데이터의실질적인표준으로성장했습니다.

이책은스트림처리엔진으로서아파치스파크의개념,도구및기능에대해가장잘소개하고있습니다.이책은먼저최신분산처리를이해하는데필요한핵심스파크개념을소개합니다.그런다음다른스트림처리아키텍처와그사이의근본적인아키텍처적인절충안을탐구합니다.마지막으로아파치스파크의구조적스트리밍으로분산스트리밍애플리케이션을쉽게구현하는방법을보여줍니다.또한레거시커넥터를사용하여스트리밍애플리케이션을구축하기위한이전스파크스트리밍(일명DStream)API도다룹니다.

전체적으로이책은아파치스파크를사용하여스트리밍애플리케이션을구축하고운영하기위해알아야할모든것을다룹니다!우리는당신이무엇을만들어낼지기대하겠습니다!

- 서문중에서-