Description
다양한 IT 기술의 집합체 빅데이터, 그 기술의 내부를 파헤친다!
컴퓨터의 성능 향상에 따라 점점 더 많은 것이 시스템화되어 좀 더 효율 높게 운용하는 시대가 되었습니다. 예로, 스마트폰으로 물건을 사면 바로 다음 날에 받아볼 수 있습니다. 그렇다면 데이터 처리를 어떻게 시스템화할까요? 이 책에서는 데이터 처리 과정에 사용되는 소프트웨어와 데이터베이스, 프로그래밍 언어와 시각화 도구 등의 특징을 정리하여 데이터를 효율 높게 취급하기 위한 기초를 먼저 설명합니다. 그리고 ‘워크플로 관리’와 ‘스트림 처리’ 등의 데이터 처리를 자동화하는 기술에 대해 살펴봅니다.

저자

니시다케이스케

지은이:니시다케이스케(西田圭介)
주식회사네트워크응용통신연구소연구원을거쳐,코볼컴파일부터VPN서버,드라이버개발,웹애플리케이션개발등을연구하는엔지니어로활동중이다.오픈코볼의개발자이며,IPA(독립행정법인정보처리추진기구)의2002년도미답유스(未踏Youth)에서선정한수퍼크리에이터이다.  

옮긴이:정인식
숭실대학교에서전자계산학을전공하였다.사회초년생시절자바에심취해현대정보기술에서웹애플리케이션을개발하였고,그후이동통신단말기분야로전직하여휴대전화단말기의부가서비스개발업무를담당하였다.일본키스코모바일사업부팀장이었으며,일본교세라의북미향휴대전화기개발에참여하였다.지금은일본의주요이동통신사에서업무프로세스개선을위한IT컨설팅및데이터분석관련툴을개발하고있다.

옮긴책으로는《처음만나는알고리즘》,《기초튼튼코드튼튼다함께프로그래밍》,《유니티5로만드는3D/2D스마트폰게임개발》을비롯해10여종이있다.  

목차

CHAPTER1빅데이터의기초지식_1
1-1[배경]빅데이터의정착3
분산시스템에의한데이터처리의고속화―빅데이터의취급하기어려운점을극복한두가지대표기술3
분산시스템의비즈니스이용개척―데이터웨어하우스와의공존7
직접할수있는데이터분석폭확대―클라우드서비스와데이터디스커버리로가속하는빅데이터의활용8
1-2빅데이터시대의데이터분석기반11
[재입문]빅데이터의기술―분산시스템을활용해서데이터를가공해나가는구조11
데이터웨어하우스와데이터마트―데이터파이프라인기본형16
데이터레이크―데이터를그대로축적17
데이터분석기반을단계적으로발전시키기―팀과역할분담,스몰스타트와확장19
데이터를수집하는목적―‘검색’,‘가공’,‘시각화’의세가지예22
확증적데이터분석과탐색적데이터분석25
1-3[속성학습]스크립트언어에의한특별분석과데이터프레임26
데이터처리와스크립트언어―인기언어인파이썬과데이터프레임26
데이터프레임,기초중의기초―‘배열안의배열’로부터작성27
웹서버의액세스로그의예―pandas의데이터프레임으로간단히처리28
시계열데이터를대화식으로집계하기―데이터프레임을그대로사용한데이터집계30
SQL의결과를데이터프레임으로활용하기31
1-4BI도구와모니터링33
스프레드시트에의한모니터링―프로젝트의현재상황파악하기33
데이터에근거한의사결정―KPI모니터링35
변화를파악하고세부사항을이해하기―BI도구의활용37
수작업과자동화해야할것의경계를판별하기39
1-5요약42

CHAPTER2빅데이터의탐색_43
2-1크로스집계의기본45
트랜잭션테이블,크로스테이블,피벗테이블―‘크로스집계’의개념45
룩업테이블―테이블을결합하여속성늘리기47
SQL에의한테이블의집계―대량데이터의크로스집계사전준비50
데이터집계.데이터마트.시각화―시스템구성은데이터마트의크기에따라결정된다55
2-2열지향스토리지에의한고속화56
데이터베이스의지연을줄이기56
열지향데이터베이스접근―칼럼을압축하여디스크I/O를줄이기58
MPP데이터베이스의접근방식―병렬화에의해멀티코어활용하기61
2-3애드혹분석과시각화도구64
JupyterNotebook에의한애드혹분석―노트북에분석과정기록하기64
대시보드도구―정기적으로집계결과를시각화하기68
BI도구―대화적인대시보드75
2-4데이터마트의기본구조77
시각화에적합한데이터마트만들기―OLAP77
테이블을비정규화하기79
다차원모델시각화에대비하여테이블을추상화하기82
2-5요약86

CHAPTER3빅데이터의분산처리_87
3-1대규모분산처리의프레임워크89
구조화데이터와비구조화데이터89
Hadoop―분산데이터처리의공통플랫폼92
Spark―인메모리형의고속데이터처리99
3-2쿼리엔진101
데이터마트구축의파이프라인101
Hive에의한구조화데이터작성102
대화형쿼리엔진Presto의구조―Presto로구조화데이터집계하기109
데이터분석의프레임워크선택하기―MPP데이터베이스,Hive,Presto,Spark115
3-3데이터마트의구축119
팩트테이블―시계열데이터축적하기119
집계테이블―레코드수줄이기122
스냅샷테이블―마스터의상태를기록하기123
이력테이블―마스터변화기록하기127
[마지막단계]디멘전을추가하여비정규화테이블완성시키기127
3-4요약130

CHAPTER4빅데이터의축적_131
4-1벌크형과스트리밍형의데이터수집133
객체스토리지와데이터수집―분산스토리지에데이터읽어들이기133
벌크형의데이터전송―ETL서버의설치필요성135
스트리밍형의데이터전송―계속해서전송되어오는작은데이터를취급하기위한데이터전송137
4-2[성능×신뢰성]메시지배송의트레이드오프143
메시지브로커―스토리지의성능문제를해결하는중간층의설치143
메시지배송을확실하게실시하는것은어렵다―신뢰성문제와세가지설계방식146
중복제거는높은비용의오퍼레이션149
데이터수집의파이프라인―장기적인데이터분석에적합한스토리지152
4-3시계열데이터의최적화154
프로세스시간와이벤트시간―데이터분석의대상은주로이벤트시간154
프로세스시간에의한분할과문제점―최대한피하고싶은풀스캔154
시계열인덱스―이벤트시간에의한집계의효율화①156
조건절푸쉬다운―이벤트시간에의한집계의효율화②157
이벤트시간에의한분할―테이블파티셔닝,시계열테이블158
4-4비구조화데이터의분산스토리지161
[기본전략]NoSQL데이터베이스에의한데이터활용161
분산KVS―디스크로의쓰기성능을높이기162
와이드칼럼스토어―구조화데이터를분석해서저장하기166
도큐먼트스토어―스키마리스데이터관리하기169
검색엔진―키워드검색으로데이터검색171
4-5정리175

CHAPTER5빅데이터의파이프라인_177
5-1워크플로관리179
[기초지식]워크플로관리―데이터의흐름을일원관리하기179
오류로부터의복구방법먼저생각하기183
멱등한조작으로태스크를기술하기―동일태스크를여러번실행해도동일한결과가된다188
워크플로전체를멱등으로하기194
태스크큐―자원의소비량컨트롤하기195
5-2배치형의데이터플로우199
MapReduce의시대는끝났다―데이터플로우와워크플로199
MapReduce를대신할새로운프레임워크―DAG에의한내부표현201
데이터플로우와워크플로를조합하기204
데이터플로우와SQL을나누어사용하기―데이터웨어하우스의파이프라인과데이터마트의파이프라인207
5-3스트리밍형의데이터플로우209
배치처리와스트림처리로경로나누기209
배치처리와스트림처리통합하기211
스트림처리의결과를배치처리로치환하기―스트림처리의두가지문제에대한대처214
아웃오브오더의데이터처리217
5-4정리220

CHAPTER6빅데이터분석기반의구축_223
6-1스키마리스데이터의애드혹분석225
스키마리스데이터수집하기225
대화식실행환경의준비228
Spark에의한분산환경―데이터양이늘어도대응가능하게하기232
데이터를집계해서데이터마트구축하기237
BI도구로데이터시각화하기241
6-2Hadoop에의한데이터파이프라인245
일일배치처리를태스크화하기245
[태스크1]Embulk에의한데이터추출246
[태스크2]Hive에의한데이터구조화248
[태스크3]Presto에의한데이터집계250
6-3워크플로관리도구에의한자동화253
Airflow―스크립트형의워크플로관리253
워크플로를터미널로부터실행하기257
스케줄러를기동하여DAG를정기실행하기260
태스크가소비하는자원제어하기265
Hadoop의데이터파이프라인을실행하기266
6-4클라우드서비스에의한데이터파이프라인268
데이터분석과클라우드서비스의관계268
아마존웹서비스270
구글클라우드플랫폼272
트레주어데이터274
6-5정리279

출판사 서평

다양한IT기술의집합체빅데이터,그기술의내부를파헤친다!



컴퓨터의성능향상에따라점점더많은것이시스템화되어좀더효율높게운용하는시대가되었습니다.예로,스마트폰으로물건을사면바로다음날에받아볼수있습니다.그렇다면데이터처리를어떻게시스템화할까요?이책에서는데이터처리과정에사용되는소프트웨어와데이터베이스,프로그래밍언어와시각화도구등의특징을정리하여데이터를효율높게취급하기위한기초를먼저설명합니다.그리고‘워크플로관리’와‘스트림처리’등의데이터처리를자동화하는기술에대해살펴봅니다.




현대비즈니스의성패는데이터수집과통합,그리고처리방법에달렸다!
데이터처리전문가가알려주는빅데이터와관련기술의모든것!




'데이터처리를어떻게시스템화할것인가?'이책에서는이와같은엔지니어링문제를중심으로일련의데이터처리에필요한요소와기술을정리하고,데이터를효율적으로처리하기위한토대를만들고,그위에서시스템의자동화를지원하는다양한기술을다룬다.



컴퓨터의성능이향상됨에따라머신러닝을필두로데이터를활용하는시스템개발에관한기대가더욱더커지고있다.따라서앞으로는시스템규모에상관없이'데이터처리그자체를시스템의일부로하는기술'에대한수요가점차많아질것이다.이책에서소개하는다양한시각자료와체계적인관련기술소개는독자들의빅데이터입문에많은도움이될것이다.