하둡 완벽 가이드 데이터의 숨겨진 힘을 끌어내는 최고의 클라우드 컴퓨팅 기술
Description
하둡 프로젝트의 커미터이자 핵심 설계자인 톰 화이트가 집필한 이 책은 하둡 창시자인 더그 커팅을 비롯한 프로젝트별 전문가의 강력한 조언이 충실하게 반영되어 오랫동안 하둡 개발자의 바이블로서 자리를 지켜왔다. 이번 4판에서는 하둡 2.0 기반 YARN, 파케이, 플룸, 크런치, 스파크 프로젝트 예제와 헬스케어 시스템과 유전체 분석 사례가 새로이 추가되었다. 최신 하둡 정보는 물론이고 하둡과 연동하는 아파치 하둡 프로젝트의 서브 프로젝트인 피그, 주키퍼, HBase, 하이브, 스쿱, 에이브 등에 대해서도 다루기 때문에 하둡에 대한 전반적인 지식을 얻을 수 있다. 이 책은 대규모 데이터셋을 분석하는 개발자와 하둡 클러스터를 구축하고 사용하는 시스템 관리자를 위한 최고의 지침서가 될 것이다.
저자

톰화이트

저자톰화이트는2007년2월부터아파치하둡커미터가되었고,이후아파치소프트웨어재단의일원이되었다.현재하둡에대한지원과트레이닝을제공하는회사인클라우데라에서일하고있다.그전에는독립적인하둡고문으로서하둡을설치,사용,확장하려는회사와일했다.그는oreilly.com,java.net,IBMdeveloperWorks에수많은글을썼으며몇몇컨퍼런스에서하둡에관해연설했다.톰은케임브리지대학교에서수학학사학위를취득하고,영국리즈Leeds대학교에서과학철학석사학위를취득하였다.

목차

목차
★★★Part1하둡기초★★★
CHAPTER1하둡과의만남
1.1데이터!
1.2데이터저장소와분석
1.3전체데이터에질의하기
1.4일괄처리를넘어서
1.5다른시스템과의비교
1.6아파치하둡의간략한역사
1.7이책의내용
CHAPTER2맵리듀스
2.1기상데이터셋
2.2유닉스도구로데이터분석하기
2.3하둡으로데이터분석하기
2.4분산형으로확장하기
2.5하둡스트리밍
CHAPTER3하둡분산파일시스템
3.1HDFS설계
3.2HDFS개념
3.3명령행인터페이스
3.4하둡파일시스템
3.5자바인터페이스
3.6데이터흐름
3.7distcp로병렬복사하기
CHAPTER4YARN
4.1YARN애플리케이션수행해부해보기
4.2YARN과맵리듀스1의차이점
4.3YARN스케줄링
4.4참고도서
CHAPTER5하둡I/O
5.1데이터무결성
5.2압축
5.3직렬화
5.4파일기반데이터구조
★★★Part2맵리듀스★★★
CHAPTER6맵리듀스프로그래밍
6.1환경설정API
6.2개발환경설정하기
6.3엠알유닛으로단위테스트작성하기
6.4로컬에서실행하기
6.5클러스터에서실행하기
6.6잡튜닝하기
6.7맵리듀스작업흐름
CHAPTER7맵리듀스작동방법
7.1맵리듀스잡실행상세분석
7.2실패
7.3셔플과정렬
7.4태스크실행
CHAPTER8맵리듀스타입과포맷
8.1맵리듀스타입
8.2입력포맷
8.3출력포맷
CHAPTER9맵리듀스기능
9.1카운터
9.2정렬
9.3조인
9.4사이드데이터분배
9.5맵리듀스라이브러리클래스
★★★Part3하둡운영★★★
CHAPTER10하둡클러스터설정
10.1클러스터명세
10.2클러스터설치및설정
10.3하둡환경설정
10.4보안
10.5하둡클러스터벤치마크
CHAPTER11하둡관리
11.1HDFS
11.2모니터링
11.3유지보수
★★★Part4관련프로젝트★★★
CHAPTER12에이브로
12.1에이브로자료형과스키마
12.2인메모리직렬화와역직렬화
12.3에이브로데이터파일
12.4상호운영성
12.5스키마해석
12.6정렬순서
12.7에이브로맵리듀스
12.8에이브로맵리듀스를이용하여정렬하기
12.9다양한언어에서에이브로사용하기
CHAPTER13파케이
13.1데이터모델
13.2파케이파일포맷
13.3파케이설정
13.4파케이파일쓰기와읽기
13.5파케이맵리듀스
CHAPTER14플룸
14.1플룸설치
14.2예제
14.3트랜잭션과신뢰성
14.4HDFS싱크
14.5분기
14.6분배:에이전트계층
14.7싱크그룹
14.8애플리케이션과플룸의통합
14.9컴포넌트목록
14.10참고도서
CHAPTER15스쿱
15.1스쿱얻기
15.2스쿱커넥터
15.3임포트예제
15.4생성된코드
15.5임포트자세히살펴보기
15.6불러온데이터로작업하기
15.7대용량객체임포트하기
15.8익스포트수행하기
15.9익스포트자세히살펴보기
15.10참고도서
CHAPTER16피그
16.1피그의설치및실행
16.2예제
16.3데이터베이스와비교
16.4피그라틴
16.5사용자정의함수
16.6데이터처리연산자
16.7피그실무
16.8참고도서
CHAPTER17하이브
17.1하이브설치하기
17.2예제
17.3하이브실행하기
17.4전통적인데이터베이스와의비교
17.5HiveQL
17.6테이블
17.7데이터질의하기
17.8사용자정의함수
17.9참고도서
CHAPTER18크런치
18.1예제
18.2크런치핵심API
18.3파이프라인실행
18.4크런치라이브러리
18.5참고도서
CHAPTER19스파크
19.1스파크설치
19.2예제
19.3탄력적인분산데이터셋RDD
19.4공유변수
19.5스파크잡수행분석
19.6익스큐터와클러스터매니저
19.7참고도서
CHAPTER20HBase
20.1HBase개요
20.2개념
20.3설치
20.4클라이언트
20.5온라인쿼리애플리케이션구축
20.6HBase와RDBMS의비교
20.7활용
20.8참고도서
CHAPTER21주키퍼
21.1주키퍼설치와실행
21.2예제
21.3주키퍼서비스
21.4주키퍼애플리케이션구현
21.5주키퍼실서비스
21.6참고도서
★★★Part5사례연구★★★
CHAPTER22서너의구조적데이터
22.1CPU에서시맨틱통합까지
22.2아파치크런치의도입
22.3완전한설계도의제작
22.4헬스케어데이터통합
22.5프레임워크를뛰어넘는결합성
22.6발전방향
CHAPTER23생물학의데이터과학:소프트웨어로생명구하기
23.1DNA구조
23.2유전암호:DNA글자의단백질전환
23.3DNA를소스코드처럼생각하기
23.4인간게놈프로젝트와표준게놈
23.5DNA시퀀싱과얼라이닝
23.6대규모게놈분석플랫폼ADAM
23.7개인맞춤광고에서개인맞춤의학까지
23.8참여하기
CHAPTER24캐스케이딩
24.1필드,튜플,파이프
24.2연산
24.3탭,스킴,플로
24.4예제
24.5유연성
24.6쉐어디스에서의하둡과캐스케이딩
24.7요약
부록A아파치하둡설치하기
부록B클라우데라아파치하둡배포판
부록CNCDC기상데이터준비
부록D예전과새로운자바맵리듀스API

출판사 서평

출판사서평
★곁에두고찾아보는하둡최고의바이블개정4판전격출간!
★개정4판에서새로워진내용
4판은하둡2버전만을다룬다.하둡2버전은현재가장활발히개선되고있으며가장안정된하둡버전이다.YARN(4장),파케이(13장),플룸(14장),크런치(18장),스파크(19장)를다루는새로운장이추가되었다.이책을읽는다양한순서를독자들에게알려주는절도포함되었다.또한새로운두가지사례연구를포함한다.첫번째는헬스케어시스템에서하둡을사용하기(22장),두번째는하둡으로유전체데이...
★곁에두고찾아보는하둡최고의바이블개정4판전격출간!
★개정4판에서새로워진내용
4판은하둡2버전만을다룬다.하둡2버전은현재가장활발히개선되고있으며가장안정된하둡버전이다.YARN(4장),파케이(13장),플룸(14장),크런치(18장),스파크(19장)를다루는새로운장이추가되었다.이책을읽는다양한순서를독자들에게알려주는절도포함되었다.또한새로운두가지사례연구를포함한다.첫번째는헬스케어시스템에서하둡을사용하기(22장),두번째는하둡으로유전체데이터를처리하기(23장)다.하둡최신버전과관련프로젝트를반영하고자기존내용에많은수정을가해개선했다.
★대상독자
-시스템관리자
-클라우드컴퓨팅분야의학자,개발자,기술기획자
-데이터마이닝등데이터분석및알고리즘학자,개발자
★이책에서다루는기술
-맵리듀스,HDFS,YARN
-애플리케이션개발
-피크,하이브,크런치,스파크
-분산데이터베이스HBase
-분산설정서비스주키퍼
-하둡클러스터관리및설정
-에이브로로데이터직렬화하기
-파케이로중첩데이터처리하기
-플룸으로데이터수집하기
-스쿱으로데이터일괄전송하기
[추천사]
여러분은진정한고수에게서하둡의기술적인측면뿐만아니라상식적이고일반적인개발방법까지도배울기회를얻었습니다.
-더그커팅,하둡창시자,클라우데라