Amazon Redshift (레드시프트 구축부터 성능, 쿼리, 비용 최적화까지 마스터하기)

Amazon Redshift (레드시프트 구축부터 성능, 쿼리, 비용 최적화까지 마스터하기)

$30.30
Description
아마존에서 제공하는 데이터 웨어하우스 서비스인 아마존 레드시프트를 처음 접하는 독자를 위한 책이다. 먼저 레드시프트 클러스터의 아키텍처를 자세히 설명한다. 다음으로 AWS 콘솔에서 클러스터를 생성하고 쿼리를 수행할 때 어떠한 데이터 구조를 가져가야 하는지, 어떤 쿼리를 수행해야 하는지 성능, 보안, 비용 측면에서 자세히 설명한다. 마지막으로 AWS에서 레드시프트 스펙트럼을 이용해 다른 서비스와 함께 데이터 레이크를 구축하는 방법을 예제를 들어 설명한다. 이 책을 읽고 나면 AWS 데이터 웨어하우스 구축의 시작부터 최적화까지 100% 활용할 수 있을 것이다.
저자

김현준

SKC&C,삼성반도체,쿠팡에서근무하며다양한데이터플랫폼구축경험을쌓았다.현재는쿠팡의데이터인프라팀에서아마존레드시프트와EMR데이터플랫폼구축및관리업무를맡고있다.최대관심분야는분산시스템,분산캐시등의기술로데이터베이스성능과사용자경험을향상시키는기술을연구하고있다.여유시간에는RPi,FPV드론,RC자동차의컨트롤러를개발하며미래형메카닉을꿈꾸고있다.

목차

CHAPTER1.AWS소개

__1.1클라우드서비스
__1.2클라우드요금제도
__1.3고객지원과마케팅
____AWSre:Invent
____AWSSummit
____AWSTechConnect
____AWSTransformationDays
____AWSOnlineTechTalks
____오픈소스
____API&SDK
____AWS교육과자격증
__1.4지속적인서비스진화
__1.5글로벌가용성
__1.6시스템보안
__1.7정리


CHAPTER2.레드시프트시작하기

__2.1AmazonRedshift
____레드시프트의특징
____레드시프트포지셔닝
__2.2시작하기
____AWS웹콘솔접속
____레드시프트클러스터생성
____노드유형
__2.3접속하기
____데이터베이스툴
____JDBC접속
____ODBC접속
____Python접속
____CLI접속
__2.4레드시프트아키텍처
____시스템아키텍처
____데이터분산
____데이터저장
__2.5정리


CHAPTER3.데이터최적화

__3.1실습데이터적재
__3.2테이블생성
____CREATETABLE
____CREATETABLEAS
____CREATETABLELIKE
____CREATETEMPTABLE
____CREATETABLEIFNOTEXISTS
____테이블생성제약사항
__3.3컬럼
____데이터자료형
____컬럼인코딩
__3.4데이터분산
____테이블분산방식
____테이블분산방식선택하기
__3.5소트키
____존맵(ZoneMap)
____컴파운드소트키(COMPOUNDSORTKEY)
____인터리브소트키(INTERLEAVEDSORTKEY)
____소트키유형선택하기
__3.6데이터적재와추출
____COPY
____UNLOAD
__3.7정리


CHAPTER4.쿼리최적화

__4.1SQL복습
____WHERE
____GROUPBY
____JOIN
____쿼리강제종료
__4.2쿼리분석
____쿼리플래닝
____실행계획분석하기
____오퍼레이터
____종료된쿼리분석하기
____시스템점유율분석하기
__4.3쿼리튜닝
____쿼리패턴분석과테이블디자인
____컬럼프로젝션
____데이터스캔줄이기
____조건절에함수피하기
____GROUPBY튜닝
____커밋빈도줄이기
____통계정보최신으로유지하기
____데이터재분산&재배포피하기
____쿼리결과최소화하기
__4.4정리


CHAPTER5.클러스터최적화

__5.1클러스터설정
____관리자뷰
____시스템테이블
____파라미터그룹
____WLM
____스냅샷
__5.2클러스터모니터링
____레드시프트웹콘솔모니터링
____Audit로깅
____레드시프트어드바이저
__5.3테이블최적화
____ANALYZE
____VACUUM
____딥카피
____데이터의균형
__5.4클러스터자동화
____AWSLambda
____CloudWatchEvents
__5.5정리


CHAPTER6.레드시프트보안

__6.1레드시프트네트워크인프라
____네트워크플랫폼
____VPC&서브넷
____라우팅테이블
____인터넷게이트웨이
____NAT게이트웨이
____VPN(VirtualPrivateNetwork)
____VPCEndpoints(PrivateLink)
____네트워크방화벽
__6.2사용자인증
____사용자생성
____그룹생성
____사용자인증보안
__6.3사용자권한
____테이블권한
____스키마권한
____데이터베이스권한
____함수권한
____UDF언어권한
____권환회수
__6.4데이터보안
____데이터베이스암호화
____S3데이터암호화
__6.5SSL
____SSL연결
____SSL인증서
____TrustStore
____클러스터설정
____클라이언트설정
__6.6정리


CHAPTER7.레드시프트스펙트럼사용하기

__7.1레드시프트Spectrum
__7.2스펙트럼구성하기
____IAM역할설정하기
____외부스키마생성하기
____외부테이블생성하기
____메타데이터저장소
____테이블파티셔닝
__7.3스펙트럼쿼리작성하기
____외부테이블조회쿼리및비교
____내부테이블과외부테이블의조인
__7.4스펙트럼비용
__7.5레드시프트스펙트럼최적화
____최적화된데이터포맷사용
____압축파일사용
____대량병렬처리를위한파일분할
____데이터파티셔닝
__7.6정리


CHAPTER8.부록

__8.1클러스터리사이즈
____클래식리사이즈
____스냅샷리사이즈
____일래스틱리사이즈
__8.2컨커런시스케일
____컨커런시스케일요금
__8.3AWSGlue
__8.4AmazonAthena
__8.5레드시프트비용
____온디맨드요금
____리저브드인스턴스요금
____레드시프트비용절약방법

출판사 서평

★이책에서다루는내용★
■데이터분석에맞춤화된실습용레드시프트클러스터생성
■다양한형식의데이터를적재하고최적화하는방법
■실습데이터를이용해최적화한테이블분산방식과소트키선정방법
■레드시프트쿼리프로파일링방법
■레드시프트쿼리튜닝노하우
■안정적인레드시프트클러스터구성과관리,모니터링방법
■레드시프트WLM과스냅샷,VACUUM작업100%이해하기
■레드시프트정보보안수준향상방법
■레드시프트스펙트럼을활용한S3데이터쿼리방법
■레드시프트과금방식과비용절감방법
■일래스틱리사이즈와컨커런시스케일

★이책의대상독자★
AWS에서레드시프트를처음들어본사용자부터레드시프트를사용해AWS내에서데이터웨어하우스를구축하고자하는데이터엔지니어까지모두참고할수있다.기존데이터베이스관련지식이있다면아마존레드시프트에서다른아키텍처를어떻게사용해야성능의이점을최대화할수있는지참고할수있다.데이터베이스관련지식이부족하더라도기본적인쿼리사용법부터레드시프트구조까지자세히설명하기때문에기초사용자의레드시프트를사용길잡이가돼줄것이다.AWS클라우드에서데이터웨어하우스및데이터레이크를구축하고자하는엔지니어라면레드시프트의특징을기반으로저자의많은시행착오와경험에서나오는팁들을참고할수있으며,이책이앞으로겪게될폭풍속의등대가돼줄것이다.또한클라우드에시스템을구축하는만큼얼마나적은비용으로최대한의효과를낼수있는가에초점을맞추고있다.아마존레드시프트를사용할때의여러팁을사용자의환경에맞춰적용함으로써비용효율적인시스템을구축할수있도록안내할것이다.

★이책의구성★
각장에서다루는내용은레드시프트클러스터구축과정순서로구성했다.독자에따라필요한장만읽어볼수도있지만설치형데이터웨어하우스와다르게클라우드데이터웨어하우스에서는시스템관리자와데이터제공자,분석가의경계가미미하다.시스템관리자와데이터제공자는분석가의쿼리를잘알고있어야하며,분석가는클러스터와데이터구성을잘이해하고있어야최적화된쿼리성능을발휘할수있다.따라서사용자역할에상관없이처음부터끝까지읽기를권장한다.

1장.AWS소개
아마존레드시프트를다루기전에AWS서비스의간략한소개와출시배경을다룬다.

2장.레드시프트시작하기
AWS를처음접하거나레드시프트클러스터를처음생성한다면생성과정에등장하는용어와옵션이생소할것이다.레드시프트시스템아키텍처를설명하고AWS클라우드와데이터레이크에서레드시프트의역할을이해한다음대용량데이터분석환경에맞춤화된레드시프트클러스터구성과정을설명한다.

3장.데이터최적화
레드시프트클러스터가준비됐다면,데이터웨어하우스와마트데이터를구성할단계다.데이터적재부터데이터최적화까지다룬다.레드시프트에서데이터최적화는쿼리성능을결정하는가장중요한단계다.많은레드시프트입문자가어려워하는테이블분산방식과소트키를설명한다.3장에서적재한실습데이터는이후학습과정에서활용한다.

4장.쿼리최적화
레드시프트와같이대용량데이터를대상으로쿼리를처리하는데이터베이스시스템에서의쿼리튜닝작업은매우중요하다.1만레코드를대상으로한쿼리가튜닝을통해1초빨라졌다고가정하면데이터가백만,천만,1조건으로늘어나는경우튜닝의결과는백배천배로빨라질수있다.4장에서는쿼리를분석하고프로파일링한다음쿼리를튜닝하는노하우를소개한다.

5장.클러스터최적화
2장에서생성한클러스터를관리하고시스템과데이터안정성을높게유지하는방법을설명한다.또한많은레드시프트입문자가어려워하는WLM구성과VACUUM작업을설명한다.

6장.레드시프트보안
레드시프트클러스터를관리하고확장하려면정보보안을간과할수없다.6장에서는레드시프트관련AWS네트워크기능을소개한다.그후사용자인증과권한설정을통해데이터접근을통제하고,클러스터와S3에저장되는데이터암호화로정보보안수준을높인다.마지막으로SSL클라이언트연결을설정해클라이언트와클러스터간데이터가안전하게전송되게한다.

7장.레드시프트스펙트럼
레드시프트스펙트럼은AWSS3데이터레이크와레드시프트를연결해주는고리다.레드시프트스펙트럼으로S3에저장된데이터를쿼리하고분석하는방법을설명하며,스펙트럼관련요금과비용절감방법을소개한다.

8장.부록
일래스틱리사이즈,컨커런시스케일과같이레드시프트에새롭게추가됐지만학습에빠트릴수없는기능을다룬다.일래스틱리사이즈를사용해클러스터를재생성하지않고클러스터크기를변경할수있으며,컨커런시스케일은레드시프트고질적인컨커런시제한문제를해결해준다.추가로레드시프트와연동되는AWS서비스인AWSGlue와AWSAthena를소개한다.마지막으로AWS사용자의최대관심사인레드시프트요금과비용절감방법을설명한다.