데이터 품질의 비밀 : 데이터 신뢰를 쌓는 데이터옵스의 핵심과 엔드 투 엔드 단계별 가이드

데이터 품질의 비밀 : 데이터 신뢰를 쌓는 데이터옵스의 핵심과 엔드 투 엔드 단계별 가이드

$28.00
Description
데이터를 다루는 일을 하는 사람들이라면
누구나 읽어보고, 알아보고 싶었던 ‘데이터 품질’
데이터가 곧 가치인 시대, 성패는 데이터 품질에 달려있다!
이 책은 신뢰할 수 없는 데이터로 고통받고, 내적 비명을 지르며 이 상황을 개선하기 위해 무언가 하고 싶어 하는 모든 이들을 위한 길잡이다. 기본적으로 이 책은 데이터를 정제하고 이해하는 방법을 다룬 매뉴얼처럼 보인다. 그러나 여기서 더 나아가 보다 안정적인 데이터 시스템을 구축하고 그 과정에서 조직 및 이해관계자와 데이터 신뢰를 구축하는 모범 사례, 도구 및 프로세스까지 설명한다. 책을 다 읽었을 때, 최소한 조직 전반에서 데이터 품질과 신뢰성의 우선순위를 정할 때 써먹을 만한 몇 가지 요령을 터득하길 바란다. 데이터 신뢰는 하루아침에 완성되지 않는다. 올바른 접근 방식을 기반으로, 파이프라인 하나하나가 점진적으로 쌓인다.

북 트레일러

  • 출판사의 사정에 따라 서비스가 변경 또는 중지될 수 있습니다.
  • Window7의 경우 사운드 연결이 없을 시, 동영상 재생에 오류가 발생할 수 있습니다. 이어폰, 스피커 등이 연결되어 있는지 확인 하시고 재생하시기 바랍니다.

저자

바모세스,라이어개비쉬,몰리보르웨르크

저자:바모세스
데이터신뢰성솔루션회사몬테카를로(MonteCarlo)의CEO겸공동설립자로,데이터분야에서10여년간일했다.이스라엘공군의데이터인텔리전스부대사령관,베인앤컴퍼니(Bain&Company)의컨설턴트,게인사이트(Gainsight)의운영부사장으로재직하면서데이터및분석팀을구성하고이끌었다.또한데이터엔지니어분야의화두인데이터통합옵저버빌리티를주제로한오라일리의첫번째강좌에서강연자로나섰다.그녀는데이터옵저버빌리티관련어려움을겪고있는수백개의데이터조직과협업하며,현장에서얻은생생한영감을바탕으로‘데이터다운타임’문제를식별하고해결하며예방하는솔루션을개발하고있다.데이터다운타임이란데이터가누락됐거나,부정확하거나,데이터에오류가있어생기는문제를말한다.그녀는데이터조직들이이책을통해기술적·조직적·문화적모범사례를배워서대규모로양질의데이터품질을달성할수있기를바라며,본인의경험과교훈을공유했다.

저자:라이어개비쉬
몬테카를로의CTO겸공동설립자다.몬테카를로에합류하기전에는사이버보안스타트업인수카사(Sookasa)를공동설립했으며,이회사는2016년바라쿠다(Barracuda)에인수됐다.이후바라쿠다에서엔지니어링수석부사장을역임하며부정및사기방지(Fraudprevention)를위한머신러닝프로덕트를출시해관련상을수상했다.라이어는스탠퍼드대학교에서MBA를,텔아비브대학교에서컴퓨터공학석사를취득했다.

저자:몰리보르웨르크
몬테카를로의콘텐츠책임자다.몬테카를로에합류하기전에는우버(Uber)엔지니어링블로그의편집장겸우버기술브랜드팀의수석프로그램관리자로근무하면서,소속엔지니어,데이터과학자,분석가들과함께기술업무와경험에관해콘텐츠를작성하고편집했다.또한우버CTO를위한내부커뮤니케이션과우버AI랩스(UberAILabs)의연구검토프로그램전략을리드했다.여가시간에는USA투데이에데이터최신동향기사를투고하는프리랜서로일하며,캘리포니아역사학회에서자원봉사도한다.

역자:데이터야놀자
데이터야놀자는오픈소스커뮤니티정신을바탕으로하여구성원모두의자발적인참여로운영되어왔다.어울림,참여,즐거움의가치를최우선으로하여발표자,청중,커뮤니티,후원기업모두가데이터로어울릴수있는장을펼쳐가고있다.데이터에대한관심은나날이늘고있지만,데이터를가지고‘놀줄아는’사람들의이야기는접하기가어렵다.더많은데이터이야기가공유되고생태계가활성화될수있도록매년10월콘퍼런스를진행하고있다.‘놀자’가중심이고‘데이터’는거들뿐!올해도데이터야놀자는계속된다.즐거운분위기에서데이터로놀아본경험을공유할발표자와청중,커뮤니티그리고후원은데이터야놀자대표이메일(datayanolja.master@gmail.com)로문의해주기를바란다!생생한커뮤니티소식은페이스북에서확인해보자!

목차


CHAPTER1지금,데이터품질에주목해야하는이유
1.1데이터품질이란?
1.2데이터품질의현재
1.3마치며

CHAPTER2신뢰할수있는데이터시스템구축을위한블록조립
2.1운영데이터와분석데이터의차이
2.2차이는어떻게만들어지는가?
2.3데이터웨어하우스vs데이터레이크
2.4데이터품질지표수집
2.5데이터카탈로그설계
2.6데이터카탈로그구축
2.7마치며

CHAPTER3데이터수집·정제·변환·테스트
3.1데이터수집
3.2데이터정제
3.3배치처리vs실시간처리
3.4실시간처리를위한데이터품질
3.5데이터정규화
3.6분석데이터변환실행
3.7테스트및경고알람시스템
3.8아파치에어플로를활용한데이터품질관리
3.9마치며

CHAPTER4데이터파이프라인모니터링및이상탐지
4.1알려진미지와알려지지않은미지
4.2이상탐지알고리즘구축
4.3스키마및계보를위한모니터구축
4.4파이썬과머신러닝으로이상탐지확장
4.5이상탐지의심화과정:기타유용한접근법
4.6데이터품질모니터설계:데이터웨어하우스vs데이터레이크
4.7마치며

CHAPTER5데이터신뢰성을위한아키텍처
5.1수집단계에서높은데이터신뢰성측정및유지
5.2파이프라인에서높은데이터품질측정및유지
5.3데이터품질다운스트림
5.4데이터플랫폼구축
5.5데이터신뢰구축
5.6[사례연구]블링키스트
5.7마치며

CHAPTER6대규모데이터품질문제해결
6.1소프트웨어개발시품질문제조정
6.2데이터사고관리
6.3사고대응및완화
6.4[사례연구]페이저듀티의데이터사고관리
6.5마치며

CHAPTER7엔드투엔드데이터계보구축
7.1최신데이터시스템을위한엔드투엔드필드레벨데이터계보구축
7.2[사례연구]폭스의데이터신뢰성을위한아키텍처
7.3마치며

CHAPTER8데이터품질민주화
8.1데이터를프로덕트로다루는시각
8.2데이터를프로덕트로다루는사례
8.3데이터플랫폼을향한신뢰축적
8.4데이터품질책임할당
8.5데이터품질보장을위한책임감조성
8.6데이터접근성과신뢰간균형
8.7데이터인증
8.8데이터인증프로그램실행7단계
8.9[사례연구]적합한데이터조직을찾는토스트의여정
8.10데이터리터러시함양
8.11데이터거버넌스와컴플라이언스
8.12데이터품질전략수립
8.13마치며

CHAPTER9현실에서의데이터품질:전문가대담과사례연구
9.1데이터품질향상을위한데이터메시구축
9.2왜데이터메시인가?
9.3자마크데가니와의대화:데이터메시에서데이터품질의역할
9.4[사례연구]콜리브리게임즈의데이터스택여정
9.5비즈니스에메타데이터활용
9.6데이터검색에서얻는메타데이터의가치
9.7데이터품질관리시기결정
9.8마치며

CHAPTER10신뢰할수있는데이터시스템의미래개척
10.1사후대응이아닌사전예방적대응
10.2데이터품질및신뢰성의미래예측
10.3이제부터우리는무엇을해야할까?

찾아보기

출판사 서평

[이책의핵심내용]

-바로지금,데이터품질에주목해야하는이유
-데이터품질에초점을맞춘데이터파이프라인구축및모니터링시스템,데이터옵저버빌리티구성방법
-데이터품질신뢰성을높이는방법과실제사례
-데이터품질을향상시키는거버넌스와실제사례
-각기업사정에맞게데이터품질투자대비효용성을계산하는공식소개
-데이터품질의미래트렌드4가지

[이책의대상독자]

-데이터엔지니어
-기업의데이터파이프라인을구축하고,확장하고,관리하는실무자
-데이터로서비스를만드는데이터프로덕트매니저
-데이터품질에투자하려는의지가있는COO
-데이터품질을중시하는데이터분석가
-데이터품질을중시하는데이터과학자

[이책의구성]

1장:지금데이터품질에주목해야하는이유

현재시점에서데이터품질에주목해야하는이유를살펴보고아키텍처및기술동향이전반적인거버넌스및신뢰성에어떤영향을주고있는지설명한다.이와관련하여‘데이터다운타임’이라는개념을소개하고,사이트신뢰성엔지니어링(SRE)팀의초창기로거슬러올라가,동일한데브옵스(DevOps)원칙을어떻게데이터엔지니어링워크플로에도적용할수있는지설명한다.

2장:신뢰할수있는데이터시스템구축을위한블록조립

데이터웨어하우스,데이터레이크및데이터카탈로그의주요데이터파이프라인기술에서데이터품질을보장하고측정할수있는방법을살펴본다.이를통해탄력적인데이터시스템을구축하는방법에대해설명한다.여기서소개하는세가지기본기술은양질의데이터프로덕션을위한사전준비에사용되며,데이터를저장·처리·추적한다.

3장:데이터수집·정제·변환·테스트

데이터품질과신뢰성을염두에두고데이터를수집·정제·변환·테스트하는방법을설명한다.이를통해데이터가파이프라인에있기전과파이프라인에있는동안품질을관리하는방법을알려준다.특히,최근주목받는방법론인데이터실시간처리시사용할수있는데이터품질관리툴과해당툴의이점을짚어준다.마지막으로데이터테스트단계를마친뒤,아파치에어플로를활용하여데이터품질을효율적으로관리할수있는방법을안내한다.

4장:데이터파이프라인모니터링및이상탐지

데이터신뢰성워크플로의가장중요한측면중하나인사전이상탐지및모니터링을설명한다.독자들의이해를돕기위해,공식적으로사용가능한데이터셋인거주가능한외계행성에관한모의천문데이터를활용하여데이터품질모니터구축방법을공유한다.

5장:데이터신뢰성을위한아키텍처

지금까지다룬중요한기술들을잘조합하려면어떻게해야하는지,어떤사례에서도데이터품질을잘측정하고보장할수있는강력한프로세스와시스템을설계하려면어떻게하면좋을지큰그림으로조망한다.이어서에어비앤비(Airbnb),우버(Uber),인튜이트(Intuit)및기타기업의데이터팀이SLA(서비스레벨계약),SLI(서비스수준지표),SLO(서비스수준목표)설정을비롯해데이터안정성을일상적인워크플로에통합하는방법을살펴본다.또한이들데이터팀이신선도,볼륨,배포,스키마,계보의다섯가지핵심요소를기반으로데이터품질을최적화하는데이터플랫폼구축방법을공유한다.

6장:대규모데이터품질문제해결

데이터사고관리,근본원인분석,포스트모템,그리고사고커뮤니케이션의모범사례구축등운영환경에서데이터품질문제에실제로대응하고해결하는데필요한단계를자세히들여다본다.

7장:엔드투엔드데이터계보구축

모든데이터엔지니어가갖추어야할무기이자즐겨사용하는오픈소스도구를사용해현업에서사용하는수준의계보구축방법을설명한다.이를통해,최신데이터시스템을위한‘엔드투엔드필드레벨’데이터계보를만들때고려해야할주요내용,계보에포함되는세가지요소등을배울수있다.더불어,거대미디어기업폭스네트워크에서데이터신뢰성을보장하기위해데이터아키텍처를어떻게설계했고,이를데이터계보로어떻게구축했는지실제사례를들어알아본다.

8장:데이터품질민주화

조직전반에데이터품질관리의중요성을알리고,구성원모두가데이터품질관리에쉽게접근할수있도록민주화하는과정에서넘어야할문화적·조직적장벽에대해논의한다.구체적으로는데이터를프로덕트처럼취급하는시각과데이터품질에대한회사의RACI매트릭스를이해하는원칙,비즈니스에미치는영향을극대화할수있는데이터조직구성방법을다룬다.

9장:현실에서의데이터품질:전문가대담과사례연구

실제사례연구및대담내용을공유한다.데이터메시를만든자마크데가니(ZhamakDehghani),(데이터품질이최우선인)분산형데이터아키텍처로마이그레이션하는방법에대해자신있게이야기하는안토니오피타스(AntonioFitas),폭스(Fox)의데이터서비스부사장이자‘관리된자유(controlledfreedom)’데이터관리기술의선구자인알렉스트베르돌렙(AlexTverdohleb)이자신의경험을공유해주었다.

10장:신뢰할수있는데이터시스템의미래개척

신뢰할수없는데이터가비즈니스에미치는재정적영향을측정하기위한구체적인계산법을설명한다.여기서다루는내용은데이터다운타임해결이라는임무를지고있을많은독자들이문제를해결하기위해더많은도구와프로세스에투자하는리더십을발휘하는데도움을줄것이다.