데이터 민주화와 셀프서비스 데이터 (모두가 쉽고 빠르게 데이터 인사이트를 도출하는 지름길)

데이터 민주화와 셀프서비스 데이터 (모두가 쉽고 빠르게 데이터 인사이트를 도출하는 지름길)

$31.42
Description
데이터를 기반으로 도출되는 인사이트는 모든 산업에서 경쟁 우위의 열쇠로 여겨진다. 하지만 원천 데이터에서 인사이트를 도출하는 것은 생각만큼 쉽지 않다. 데이터 파이프라인을 아무리 잘 구성해도 인사이트 하나를 도출하는 데에는 며칠에서 몇 주까지 걸리며, 데이터 양은 너무나 방대하고 빠르게 증가해 데이터 사이언스 조직을 아무리 키워도 대응 속도를 따라갈 수 없다. 이때 필요한 것이 바로 셀프서비스 데이터 플랫폼을 구축하는 것이다.
데이터 엔지니어, 데이터 과학자, 팀 관리자는 이 실용적인 책을 통해 조직의 모든 사람이 데이터에서 인사이트를 쉽게 추출할 수 있도록 하는 셀프서비스 데이터 플랫폼 구축 방법을 배울 수 있다. 이 책은 데이터 검색, 변환, 처리 및 생산 전반에 걸쳐 인사이트에 도달하기까지 걸리는 시간을 지연시키는 병목 현상을 추적하고 이를 해결하는 방법을 알려준다. 데이터 엔지니어링의 현실적 어려움으로 병목 현상을 겪고 있는 데이터 과학자들과 셀프서비스 작업 수행 방법을 알고 싶어 하는 데이터 엔지니어들에게 도움이 될 것이다.
저자

샌딥우탐찬다니

Dr.SandeepUttamchandani
언래블데이터시스템즈(UnravelDataSystems)의최고데이터책임자이자제품엔지니어링부사장이다.엔터프라이즈데이터제품을구축하고비즈니스크리티컬분석및머신러닝애플리케이션을위한페타바이트규모의데이터플랫폼을실행하는데20년가까이경험을쌓았다.가장최근에는인튜이트(Intuit)에서회사의재무회계,급여,결제제품에대한분석및머신러닝을지원하는데이터플랫폼팀을운영했다.오픈소스제품의보안취약성을관리하기위해머신러닝을사용하는스타트업의공동창립자이자CEO이기도했으며,VMware와IBM에서15년이상엔지니어링리더십역할을수행했다.
40개이상의특허를보유하고있으며,주요기술콘퍼런스에서25개이상의간행물을발행하고다수의제품혁신상과관리우수상을수상했다.또한데이터콘퍼런스의정기연사이자대학의객원강사이며,스타트업에자문을제공하고가트너(Gartner)의SFCDOExecutiveSummit및UsenixOperationalML콘퍼런스의공동의장으로활동하는등여러콘퍼런스에서프로그램/운영위원으로활동했다.일리노이대학교어바나-샴페인캠퍼스(UniversityofIllinoisatUrbana-Champaign)에서컴퓨터공학박사및석사학위를받았다.

목차

1장.소개
__원시데이터에서인사이트로의여정지도
____발견
____준비
____구축
____운영화
__인사이트시간스코어카드정의
__나의셀프서비스데이터로드맵구축

1부.셀프서비스데이터발견

2장.메타데이터카탈로그서비스
__여정지도
____데이터세트이해하기
____데이터세트분석하기
____지식확장하기
__해석시간최소화
____기술메타데이터추출하기
____운영메타데이터추출하기
____팀지식수집하기
__요구사항정의
____기술메타데이터추출기요구사항
____운영메타데이터요구사항
____팀지식취합기요구사항
__구현패턴
____소스특화커넥터패턴
____계보상관패턴
____팀지식패턴
__요약

3장.검색서비스
__여정지도
____비즈니스문제의실행가능성확인하기
____데이터준비를위해연관된데이터세트선택하기
____프로토타이핑을위해현존하는아티팩트재사용하기
__탐색시간최소화
____데이터세트및아티팩트인덱싱
____결과의순위매기기
____접근제어하기
__요구사항정의
____인덱서요구사항
____요구사항순위매기기
____접근제어요구사항
____비기능요구사항
__구현패턴
____푸시풀인덱서패턴
____하이브리드검색랭킹패턴
____카탈로그접근제어패턴
__요약

4장.피처저장소서비스
__여정지도
____사용가능한피처찾기
____학습세트생성
____온라인추론을위한피처파이프라인
__피처화시간최소화
____피처계산
____피처제공
__요구사항정의
____피처연산
____피처제공
____비기능요구사항
__구현패턴
____하이브리드피처연산패턴
____피처레지스트리패턴
__요약

5장.데이터이동서비스
__여정지도
____소스간데이터집계
____원시데이터를전문쿼리엔진으로이동
____처리된데이터를서빙저장소로이동
____소스전반의탐색적분석
__데이터가용성확보시간최소화
____데이터수집구성및변경관리
____규정준수
____데이터품질검증
__요구사항정의
____수집요구사항
____변환요구사항
____규정준수요구사항
____검증요구사항
____비기능적요구사항
__구현패턴
____배치수집패턴
____변경데이터캡처수집패턴
____이벤트집계패턴
__요약

6장.클릭스트림추적서비스
__여정지도
__클릭시간지표최소화
____계측관리
____이벤트강화
____인사이트쌓기
__요구사항정의
____계측요구사항체크리스트
____보강요구사항체크리스트
__구현패턴
____계측패턴
____규칙기반보강패턴
____소비패턴
__요약

2부.셀프서비스데이터준비

7장.데이터레이크관리서비스
__여정지도
____원시수명주기관리
____데이터업데이트관리
____배치및스트리밍데이터흐름관리
__데이터레이크관리시간최소화
____요구사항
__구현패턴
____데이터수명주기기본패턴
____트랜잭션패턴
____고급데이터관리패턴
__요약

8장.데이터랭글링서비스
__여정지도
__랭글링시간최소화
____요구사항정의
____데이터큐레이팅
____운영모니터링
__요구사항정의
__구현패턴
____탐색적데이터분석패턴
____분석변환패턴
__요약

9장.데이터권한거버넌스서비스
__여정지도
____데이터권한요청실행
____데이터세트발견
____모델재학습
__규정준수시간최소화
____고객데이터수명주기추적
____고객데이터권한요청실행
____데이터액세스제한
__요구사항정의
____현재고충설문지
____상호운용성체크리스트
____기능요구사항
____비기능요구사항
__구현패턴
____민감한데이터발견및분류패턴
____데이터레이크삭제패턴
____유스케이스기반액세스제어
__요약

3부.셀프서비스구축

10장.데이터가상화서비스
__여정지도
____데이터소스탐색
____처리클러스터선택
__쿼리시간최소화
____실행환경선택
____다중언어쿼리공식화
____사일로간데이터결합
__요구사항정의
____현재문제점분석
____운영요구사항
____기능요구사항
____비기능요구사항
__구현패턴
____자동쿼리라우팅패턴
____통합쿼리패턴
____연합쿼리패턴
__요약

11장.데이터변환서비스
__여정지도
____프로덕션대시보드및ML파이프라인
____데이터기반스토리텔링
__변환시간최소화
____변환구현
____변환실행
____변환작업
__요구사항정의
____현재상태설문지
____기능요구사항
____비기능요구사항
__구현패턴
____구현패턴
____실행패턴
__요약

12장.모델학습서비스
__여정지도
____모델프로토타이핑
____지속적학습
____모델디버깅
__학습시간최소화
____학습오케스트레이션
____튜닝
____지속적학습
__요구사항정의
____학습오케스트레이션
____튜닝
____지속적학습
____비기능요구사항
__구현패턴
____분산학습오케스트레이터패턴
____자동튜닝패턴
____데이터인식지속적학습
__요약

13장.지속적통합서비스
__여정지도
____ML파이프라인에서의공동작업
____ETL변경사항통합
____스키마변경검증
__통합시간최소화
____실험추적
____재현가능한배포
____테스트검증
__요구사항정의
____실험추적모듈
____파이프라인패키징모듈
____자동화모듈테스트
__구현패턴
____프로그래밍가능한추적패턴
____재현가능한프로젝트패턴
__요약

14장.A/B테스트서비스
__여정지도
__A/B테스트시간최소화
____실험설계
____대규모실행
____실험최적화
__구현패턴
____실험명세패턴
____지표정의패턴
____자동화된실험최적화
__요약

4부.셀프서비스운영화

15장.쿼리최적화서비스
__여정지도
____클러스터막힘방지
____런타임쿼리문제해결
____애플리케이션속도향상
__최적화시간최소화
____통계집계
____통계분석
____작업최적화
__요구사항정의
____현재고충설문지
____상호운용요구사항
____기능요구사항
____비기능적요구사항
__구현패턴
____회피패턴
____운영인사이트패턴
____자동화된튜닝패턴
__요약

16장.파이프라인오케스트레이션서비스
__여정지도
____탐색파이프라인호출
____SLA기반파이프라인실행
__오케스트레이션시간최소화
____작업종속성정의
____분산실행
____프로덕션모니터링
__요구사항정의
____현재불만사항설문지
____운영요구사항
____기능요구사항
____비기능요구사항
__구현패턴
____종속성저작패턴
____오케스트레이션관측가능성패턴
____분산실행패턴
__요약

17장.모델배포서비스
__여정지도
____프로덕션에서모델배포
____모델유지관리및업그레이드
__배포시간최소화
____배포오케스트레이션
____성능확장
____드리프트모니터링
__요구사항정의
____오케스트레이션
____모델확장및성능
____드리프트검증
____비기능요구사항
__구현패턴
____범용배포패턴
____자동확장배포패턴
____모델드리프트추적패턴
__요약

18장.품질관측가능성서비스
__여정지도
____일일데이터품질모니터링보고서
____품질문제디버깅
____저품질데이터레코드처리
__인사이트품질시간최소화
____데이터의정확성확인
____품질이상탐지
____데이터품질문제방지
__요구사항정의
____데이터품질문제감지및처리
____기능요구사항
____비기능요구사항
__구현패턴
____정확도모델패턴
____프로파일링기반이상탐지패턴
____방지패턴
__요약

19장.비용관리서비스
__여정지도
____비용사용량모니터링
____지속적인비용최적화
__비용최적화시간최소화
____비용관측가능성
____수요공급매칭
____지속적비용최적화
__요구사항정의
____애로사항설문지
____기능요구사항
____비기능요구사항
__구현패턴
____지속적비용모니터링패턴
____자동확장패턴
____비용어드바이저패턴
__요약

출판사 서평

◈이책에서다루는내용◈

◆데이터발견,품질,계보,거버넌스를지원하는셀프서비스포털구축하기
◆오픈소스기술을사용해각셀프서비스기능에가장적합한접근방식선택하기
◆데이터플랫폼의사람,프로세스,기술성숙도에따른셀프서비스맞춤화하기
◆데이터를민주화하고인사이트를얻는데드는시간을줄이는기능구현하기
◆셀프서비스포털확장으로조직내많은사용자지원하기

◈이책의대상독자◈

이책을통해엔지니어링의현실적어려움으로병목현상을겪고있는데이터과학자들과셀프서비스작업을수행하는방법을잘모르는데이터엔지니어들간의격차를해소할수있다.

◈옮긴이의말◈

데이터의시대다.데이터와전혀관련이없어보이던분야에서도데이터가‘보물상자의열쇠’라도되는것처럼데이터를도입하고있다.그런데데이터플랫폼을도입하고보면생각만큼단순하지않다.깊이있는분석을위해서는더많은데이터를쌓아야하는데,데이터의양과원천소스가많아지는만큼데이터에접근하고분석하기가점점더어렵다.마치보물상자를열어보니복잡한보물지도가있고,그보물지도가가리키는목적지를찾아가니또다른보물상자가있고,또그상자를열어보려면또다른열쇠가필요한끊임없이반복되는보물찾기처럼느껴진다.이책은데이터플랫폼을구축하고운영하는분들이라면경험해봤거나접하게될다양한문제점을해결하기위한실마리를제공한다.저자는데이터플랫폼에대한풍부한경험을토대로데이터플랫폼을구축하고운영하고사용하는데필요한시간을세분화해각각의단위별시간을줄일수있는다양한솔루션을제시한다.또한수동관리와반자동관리그리고완전자동화에이르기까지단계적으로솔루션을적용할수있도록안내한다.
이를가능케하는것은데이터민주화와셀프서비스데이터다.여기서이야기하는데이터민주화란데이터에쉽게접근할수있도록기반을만들어데이터를잘아는사람부터잘모르는사람까지누구나데이터를쉽게사용해인사이트를도출할수있도록하는것을말한다.그리고셀프서비스데이터란데이터엔지니어나데이터과학자가관여하지않더라도마케터,사업담당자,서비스운영담당자등조직내모든사람이스스로데이터에접근해인사이트를추출할수있도록만들어진데이터기반을의미한다.
데이터와관련된용어는대부분영어다.현업에서도데이터부서의담당자가아니면이해하기힘든용어가많기도하고,새로운용어도계속생겨난다.회사나조직에따라서는같은단어를지칭하는다른용어가혼재돼사용되기도한다.가능하면현업에서이해하기에무리가없는용어를사용하려고노력했지만,일부용어는저자의의도를최대한살리고자영어표현을그대로차용하기도했다.