데이터 파이프라인 핵심 가이드 : 성공적인 데이터 분석을 위한 인프라 설계와 구축

데이터 파이프라인 핵심 가이드 : 성공적인 데이터 분석을 위한 인프라 설계와 구축

$20.00
Description
데이터 파이프라인의 모든 단계를 기초부터 탄탄하게 설명합니다!
데이터 파이프라인은 데이터 분석의 성공을 위한 기반입니다. 수많은 다양한 소스에서 데이터를 이동하고 컨텍스트를 제공하기 위해 변환하는 것은 데이터를 그저 소유하는 것과 그로부터 실제 가치를 얻는 것만큼의 차이가 있습니다. 이 핵심 가이드 북은 데이터 파이프라인을 정의하고 최신 데이터 스택에서 작동하는 방식을 설명합니다.

일괄 처리 대 스트리밍 데이터 수집, 빌드 대 구매와 같은 파이프라인을 구현할 때 일반적인 고려사항과 주요 결정사항을 배웁니다. 이 책은 데이터 전문가가 내리는 가장 일반적인 결정을 다루고 오픈 소스 프레임워크와 상용 제품, 자체 개발 솔루션에 적용되는 기본 개념에 관해 설명합니다.

★ 이 책에서 다루는 내용 ★

◎ 데이터 파이프라인의 정의 및 작동 방식
◎ 클라우드 플랫폼을 포함한 최신 데이터 인프라에서 데이터를 이동하고 처리하는 방법
◎ 데이터 엔지니어가 파이프라인을 구축하는 데 사용하는 공통 도구 및 제품
◎ 파이프라인이 분석 및 보고 요구사항을 지원하는 방법
◎ 파이프라인 유지 관리, 테스트 및 경고에 대한 고려 사항

저자

제임스댄스모어

저자:제임스댄스모어
Hub-Spot의데이터인프라디렉터이며,DataLiftoff의창립자이자수석컨설턴트다.Wayfair,O'ReillyMedia,HubSpot및Degreed에서데이터팀을이끌고데이터인프라를구축한10년이상의경험이있다.그는노스이스트대학에서컴퓨터공학학사학위를,보스턴칼리지에서MBA를취득했다.

역자:정현아
데이터베이스컨설턴트로다양한기업의데이터베이스구축과운영을지원하다가현재는클라우드공급업체에서솔루션즈아키텍트로근무하고있다.특히데이터를다루고바라보는작업에흥미를느끼며어떻게데이터를쉽고잘분석할수있을지를사람들과함께고민하는것을좋아한다.그외의시간은다양한경험으로채워나가며다채로운인생을만들어가는중이다.

역자:조이정
리눅스서버어드민을시작으로오픈스택을구축하고관리하다가클라우드시대를맞아현재는클라우드공급업체에서솔루션즈아키텍트로일을하고있다.트렌드의변화를관찰하고내것으로만드는것을좋아하며제너럴리스트와스페셜리스트사이에서늘고민한다.솔루션즈아키텍트로서대중에게클라우드를알리고기존환경을클라우드로이전하여애플리케이션을현대화할수있게돕는일에관심이많다.

목차

▣01장:데이터파이프라인소개
데이터파이프라인이란?
누가파이프라인을구축할까?
___SQL과데이터웨어하우징기초
___파이썬그리고/또는자바
___분산컴퓨팅
___기본시스템관리
___목표지향적사고방식
왜데이터파이프라인을구축할까?
어떻게데이터파이프라인을구축할까?

▣02장:최신데이터인프라
데이터소스의다양성
___소스시스템소유권
___수집인터페이스및데이터구조
___데이터사이즈
___데이터클렌징작업과유효성검사
___소스시스템의지연시간및대역폭
클라우드데이터웨어하우스및데이터레이크
데이터수집도구
데이터변환및모델링도구
워크플로오케스트레이션플랫폼
___방향성비순환그래프
데이터인프라커스터마이징

▣03장:일반적인데이터파이프라인패턴
ETL과ELT
ETL을넘어선ELT의등장
EtLT하위패턴
데이터분석을위한ELT
데이터과학을위한ELT
데이터제품및머신러닝을위한ELT
___머신러닝파이프라인의단계
___파이프라인에피드백통합
___ML파이프라인에대한추가자료

▣04장:데이터수집:데이터추출
파이썬환경설정
클라우드파일스토리지설정
MySQL데이터베이스에서데이터추출
___전체또는증분MySQL테이블추출
___MySQL데이터의이진로그복제
PostgreSQL데이터베이스에서데이터추출
___전체또는증분Postgres테이블추출
___Write-Ahead로그를사용한데이터복제
MongoDB에서데이터추출
RESTAPI에서데이터추출
카프카및Debezium을통한스트리밍데이터수집

▣05장:데이터수집:데이터로드
AmazonRedshift웨어하우스를대상으로구성
Redshift웨어하우스에데이터로드
___증분및전체로드
___CDC로그에서추출한데이터로드
Snowflake웨어하우스를대상으로구성3
Snowflake데이터웨어하우스에데이터로드
파일스토리지를데이터레이크로사용
오픈소스프레임워크
상업적대안

▣06장:데이터변환하기
비문맥적변환
___테이블에서레코드중복제거
___URL파싱
언제변환할것인가,수집중혹은수집후?
데이터모델링기초
___주요데이터모델링용어
___완전히새로고침된데이터모델링
___완전히새로고침된데이터의차원을천천히변경
___증분수집된데이터모델링
___추가전용(Append-only)데이터모델링
___변경캡처데이터모델링

▣07장:파이프라인오케스트레이션
___방향성비순환그래프
아파치에어플로우설정및개요
___설치및구성
___에어플로우데이터베이스
___웹서버및UI
___스케줄러
___실행기(Executors)
___연산자(Operators)
에어플로우DAG구축
___간단한DAG
___ELT파이프라인DAG
추가파이프라인작업
___경고및알림
___데이터유효성검사
고급오케스트레이션구성
___결합된파이프라인작업대결합되지않은파이프라인작업
___DAG를분할해야하는경우
___센서로여러DAG조정
관리형에어플로우옵션
기타오케스트레이션프레임워크
일찍그리고자주검증할것

▣08장:파이프라인의데이터검증
___소스시스템데이터품질
___데이터수집위험
___데이터분석가검증활성화
간단한검증프레임워크
___유효성검사기프레임워크코드
___검증테스트의구조
___검증테스트실행
___에어플로우DAG에서의사용
___파이프라인을중단해야할때와경고하고계속해야할때
___프레임워크의확장
검증테스트예제
___수집후중복된레코드
___수집후의예기치않은행개수
___지표값변동
상용및오픈소스데이터검증프레임워크
소스시스템의변경사항처리

▣09장:파이프라인유지관리모범사례
___추상화도입
___데이터계약유지관리
___Schema-on-Read의고려사항
확장복잡성
___데이터수집표준화
___데이터모델링로직의재사용
___종속성무결성보장
중요파이프라인지표

▣10장:파이프라인성능측정및모니터링
데이터웨어하우스준비
___데이터인프라스키마
성능데이터로깅및수집
___에어플로우에서DAG실행기록수집
___데이터유효성검사기에로깅추가
성능데이터변환
___DAG성공률
___시간경과에따른DAG런타임변경
___검증테스트볼륨및성공률
성능파이프라인조정
___DAG의성능
성능투명성

출판사 서평

★이책에서다루는내용★

◎데이터파이프라인의정의및작동방식
◎클라우드플랫폼을포함한최신데이터인프라에서데이터를이동하고처리하는방법
◎데이터엔지니어가파이프라인을구축하는데사용하는공통도구및제품
◎파이프라인이분석및보고요구사항을지원하는방법
◎파이프라인유지관리,테스트및경고에대한고려사항