구글 클라우드 플랫폼상의 데이터 과학 (실시간 데이터 파이프라인 구현: 입수부터 머신 러닝까지)

구글 클라우드 플랫폼상의 데이터 과학 (실시간 데이터 파이프라인 구현: 입수부터 머신 러닝까지)

$40.77
Description
구글 클라우드 플랫폼(GCP)상에서 실제 문제에 정교한 통계 및 머신 러닝 방법론을 쉽게 적용하는 방법을 알려주는 책이다. 데이터 과학 분야에 입문하는 개발자는 통계와 머신 러닝 방법론, GCP 도구를 이용해 엔드 투 엔드 파이프라인을 구현하는 방법을 실습할 수 있다. 전체 과정을 따라 가면 다양한 데이터 과학 접근법을 사용한 비즈니스 의사 결정 사례를 구축할 수 있을 것이다.
저자

발리아파락쉬마난

구글클라우드의데이터와머신러닝전문서비스에대한기술책임자다.머신러닝을민주화해서어느곳에서어느사용자가사용하든하드웨어를많이갖고있지않아도,통계나프로그래밍을깊이있게알지못해도구글의놀라운인프라를사용할수있게돕는다.구글에서근무하기전에는클라이미트코퍼레이션(ClimateCorporation)에서데이터과학자팀을이끌었고,NOAA국립폭풍연구소의연구과학자로혹독한날씨의진단및예측을위한머신러닝애플리케이션을운영했다.

목차

지은이소개
감사의말
옮긴이소개
옮긴이의말
들어가며

1장.데이터에기반을둔의사결정
__많은유사한의사결정
__데이터엔지니어의역할
__클라우드는데이터엔지니어를능력자로만든다.
__클라우드는데이터과학을급속도로변화시킨다
__사례연구로확고한사실을얻을수있다
__확률론적결정
__데이터와도구
____코드로시작
__요약

2장.클라우드에데이터입수
__항공사정시도착데이터
____알수있어야함
____학습-제공간왜곡
____다운로드절차
____데이터셋속성
__데이터를한곳에저장하지않는이유
____수직확장
____수평확장
____콜로수스와주피터에함께하는데이터
__데이터입수
____웹양식리버스엔지니어링
____데이터셋다운로드
____탐색및정리
____구글클라우드스토리지에데이터업로드
__월주기로다운로드스케줄링
____파이썬으로입수
____플라스크웹애플리케이션
____앱앤진실행
____URL보호
____크론작업스케줄링
__요약
__코드휴게소

3장.혁신적인대시보드생성
__대시보드로모델설명
__대시보드를먼저만들어야하는이유
__정확성,정직성및좋은설계
__구글클라우드SQL에데이터탑재
__구글클라우드SQL인스턴스생성
__구글클라우드플랫폼과의상호작용
__MySQL에대한접근제어
__테이블생성
__테이블채우기
__첫번째모델작성
____분할표
____임계값최적화
____머신러닝
__대시보드작성
__데이터스튜디오로시작
____다이어그램생성
____최종사용자제어기능추가
____파이다이어그램으로비율표시
____분할표설명
__요약

4장.스트리밍데이터:송신및입수
__이벤트피드설계
__시간보정
__아파치빔/클라우드데이터플로우
____공항데이터파싱
____시간대정보추가
____시간을UTC로변환
____시간보정
____이벤트생성
____클라우드에서파이프라인실행
__이벤트스트림을클라우드pub/sub에전송
____전송할기록얻기
____기록에대한분할
____이벤트일괄처리구축
____이벤트일괄처리전송
__실시간스트리밍처리
____자바데이터플로우기반스트리밍
____스트리밍처리실행
____빅쿼리로스트리밍데이터분석
____실시간대시보드
__요약

5장.대화형데이터탐색
__탐색적데이터분석
__빅쿼리에항공운항데이터탑재
____서비리스칼럼기반데이터베이스의이점
____클라우드스토리지에준비
____접근제어
____연합쿼리
____csv파일입수
__클라우드데이터랩을이용한탐색적데이터분석
____주피터노트북
____클라우드데이터랩
____클라우드데이터랩에패키지설치
____구글클라우드플랫폼의주피터매직
__품질제어
____이상한값
____이상치제거:빅데이터는다르다
____발생빈도에대한데이터필터링
__출발지연시도착지연조건
____확률적결정임계값적용
____경험확률분포함수
____정답은...
__모델평가
____무작위로뒤섞기
____날짜로분할
____학습과테스트
__요약

6장.클라우드데이터프록상의베이즈분류
__맵리듀스와하둡생태계
____맵리듀스동작방식
____아파치하둡
____구글클라우드데이터프록
____고급도구필요
____클러스터가없는작업
____초기화작업
__스파크SQL을이용한양자화
____클라우드데이터프록상의구글클라우드데이터랩
____빅쿼리를이용한개별성검사
____구글클라우드데이터랩의스파크SQL
____히스토그램균일화
____동적으로클러스터크기조절
__피그를이용한베이즈분류법
____클라우드데이터프록상에서피그작업실행
____훈련일자로제한
____의사결정기준
____베이지안모델평가
__요약

7장.머신러닝:스파크에서로지스틱회귀분석
__로지스틱회귀분석
____스파크ML라이브러리
____스파크머신러닝으로시작
____스파크로지스틱회귀분석
____학습데이터셋생성
____코너케이스다루기
____학습예제생성
____학습
____모델을사용해예측
____모델평가
__피처엔지니어링
____실험프레임워크
____보류데이터셋생성
____피처선택
____피처크기조정과클리핑
____피처변환
____범주형변수
____확장가능,반복가능,실시간
__요약

8장.시간-윈도우집계피처
__시간평균의필요성
__자바상의데이터플로우
____개발환경구성
____빔으로필터링
____파이프라인옵션및문자열I/O
____클라우드에서실행
____객체로파싱
__시간평균계산
____그룹화및조합
____측면입력으로병렬처리
____디버깅
____BigQueryIO
____항공편객체변형
____일괄모드로슬라이딩윈도우계산
____클라우드에서실행
__모니터링,트러블슈팅,성능튜닝
____파이프라인트러블슈팅
____측면입력제한사항
____파이프라인재설계
____중복제거
__요약

9장.텐서플로를이용한머신러닝분류기
__좀더복잡한모델을향해
__텐서플로에서데이터읽기
__Experiment구성
____선형분류기
____학습및평가입력함수
____서빙입력함수
____Experiment작성
____학습실행수행
____클라우드에서의분산학습
__ML모델개선
____심층신경망모델
____임베딩
____와이드앤딥모델
____하이퍼파라미터튜닝
__모델배포
____모델로예측
____모델설명
__요약

10장.실시간머신러닝
__예측서비스호출
____요청및응답에대한자바클래스
____요청전송과응답파싱
____예측서비스클라이언트
__항공편정보에예측추가
____일괄처리입력및출력
____데이터처리파이프라인
____비효율성식별
____일괄처리요청
__스트리밍파이프라인
____PCollection평탄화
____스트리밍파이프라인실행
____지연되고비순차적인기록
____워터마크와트리거
__트랜잭션,처리량,대기시간
____가능한스트리밍싱크
____클라우드빅테이블
____테이블설계
____행의키설계
____클라우드빅테이블로스트리밍
____클라우드빅테이블에서쿼리
__모델성능평가
____지속적인학습의필요성
____파이프라인평가
____성능평가
____한계분포
____모델동작확인
____동작변화식별
__요약
__책요약

부록A.머신러닝데이터셋내에서민감한데이터의고려

걸러이미지
찾아보기

출판사 서평

★이책에서다루는내용★
■앱엔진애플리케이션을이용한자동화되고스케줄된데이터입수
■구글데이터스튜디오에서의대시보드생성과구성
■스트리밍분석을수행하기위한실시간분석파이프라인구축
■구글빅쿼리를이용한대화형데이터탐색수행
■클라우드데이터프록클러스터상에서베이지안모델생성
■스파크를이용한로지스틱회기머신러닝모델구축
■클라우드데이터프록파이프라인으로시간-집계피처계산
■텐서플로를이용한고성능예측모델생성
■배치및실시간파이프라인으로부터일반인이접근할수있도록마이크로서비스모델배포와사용

★이책의대상독자★
데이터분석을하는독자모두에게적합한책이다.여러분은시스템프로그래머,데이터과학자,데이터엔지니어,데이터베이스관리자또는데이터분석가일것이다.오늘날은역할이더세분화될수도있지만(데이터분석만하든지,모델작성만하든지,데브옵스만수행할것이다),업무영역을조금늘리고싶을것이다.데이터과학모델의작성법뿐아니라상용시스템에대규모로데이터과학모델을구현하는방법도배우고싶을것이다.

[옮긴이의말]
처음이책을접했을때는참어려웠다.데이터과학과머신러닝을막연하게이해하고있는수준에머물러있어서번역하는데1년이상소요됐다.1년내내이책의내용을이해하고자소스를배포하고애플리케이션을실행하고결과를확인하는작업을쉬지않고진행했다.그덕분에적어도머신러닝,딥러닝의기초지식은어느정도이해하는수준이됐다.게다가구글클라우드라는특별한클라우드플랫폼덕분에하둡같은빅데이터시스템을별도로구축하지않고도이책에나오는모든소스를실행해보고결과를쉽게확인할수있었고,좀더빠르게머신러닝의실체에다가갈수있었다.이제는이해의수준을넘어서사내에구축돼있는빅데이터를기반으로본격적인머신러닝/딥러닝을시도하려고준비중이다.그것도구글클라우드플랫폼에서추진할예정이다.하둡클러스터등을구축할필요도없고데이터를샤딩처리하는등의수고도필요없기때문이다.게다가타사클라우드대비비용이저렴하기까지하다.
이책을접하기전에유튜브나다른책을통해머신러닝/딥러닝의기초적인사항은파악하길바란다.기초지식없이내용을접하면정말어려울것이기때문이다.최근에이책의주제로사내에서세미나를진행했다.물론다수의청중이머신러닝/딥러닝에이해도가거의없는상태였다.머신러닝/딥러닝이워낙뜨거운주제인관계로관심은많았지만내용을이해하는사람은전체의5%도안됐다.주로나온반응은“신기하다”,“무슨얘기인지하나도모르겠다”,“머신러닝절차는왜이런식인지잘모르겠다”등이었다.따라서이책을읽기전에머신러닝의기초가없다면꼭사전공부를하기를간곡히당부드린다.
끝으로이제머신러닝/딥러닝은데이터과학자만할수있는특화된분야가아니라고생각한다.적어도데이터에대한통찰력이있다면누구나할수있는분야다.또한머신러닝을쉽게실행할수있는클라우드플랫폼이계속나오고있어서누구든지배우고자한다면어렵지않게실행을해볼수있는환경이됐다.여러분을이경이롭고흥미로운세계로초청한다.꼭동참해소기의성과를이루기바란다.