애자일 데이터 과학 2.0 (변화에 기민하게 반응하는 견고한 데이터 분석 애플리케이션 구축)

애자일 데이터 과학 2.0 (변화에 기민하게 반응하는 견고한 데이터 분석 애플리케이션 구축)

$30.07
Description
연구 활동을 유용한 분석 애플리케이션으로 전환하고자 하는 데이터 과학 팀이 성공하려면 올바른 도구뿐 아니라 올바른 접근 방식이 필요하다. 개정판 《애자일 데이터 과학 2.0》에서는 애자일 데이터 과학 개발 방법론을 활용해 파이썬(Python), 아파치 스파크(Apache Spark), 카프카(Kafka) 등의 도구로 데이터 애플리케이션을 구축하는 방법을 배우게 될 것이다.

이 책에서는 아파치 카프카와 아파치 스파크, 몽고DB, 엘라스틱서치(Elasticsearch), d3.js, scikit-learn, 아파치 에어플로우(Apache Airflow)를 이용해 분석 애플리케이션을 구축, 배포, 개선하는 데이터 플랫폼을 구성하는 방법을 보여준다. 데이터가 알려주는 것이 무엇인지에 따라 현재 진행 중인 분석 작업을 빠르게 변경하고, 데이터 과학 작업을 웹 애플리케이션으로 게시하며, 조직에 의미 있는 변화를 이끌어내는 반복적인 접근법을 배울 수 있을 것이다.
저자

러셀저니

저자러셀저니는미국과멕시코의카지노도박계에서슬롯머신의성능을분석하는웹애플리케이션을만들면서데이터경험을쌓았다.기업,대화형미디어,언론계를거쳐닝(Ning)과링크드인(LinkedIn)에서방대한분석애플리케이션을구축하기위해실리콘밸리로자리를옮겼다.현재데이터신드롬(DataSyndrome)의수석컨설턴트로서기업들이분석제품을만들기위해이책에서소개한원칙과방법을적용할수있도록돕고있다.

목차

1부환경설정
01.이론
소개
정의
폭포수방식의문제점
애자일소프트웨어의문제점
데이터과학프로세스
프로세스관련참고사항
02.애자일도구
확장성=단순성
애자일데이터과학에서의데이터처리
로컬환경설정
EC2환경설정
코드가져오기및실행
도구세트둘러보기
아파치에어플로우를이용한스케줄링
결론
03.데이터
항공여행데이터
날씨데이터
애자일데이터과학의데이터처리
SQL대NoSQL
결론

2부피라미드오르기
04.레코드수집및표시
종합하기
운항데이터집계및직렬화
운항레코드처리및게시
브라우저에운항레코드보여주기
애자일체크포인트
운항데이터목록만들기
운항검색
결론
05.차트와표로데이터시각화하기
차트품질:반복이핵심이다
게시/장식모델에서데이터베이스확장시키기
계절성탐색하기
메탈(항공기[개체])추출하기
데이터보강
결론
06.보고서로데이터탐색하기
항공사(개체)추출하기
반구조화된데이터의온톨로지관리하기
항공사페이지개선
항공기(개체)조사하기
결론
07.예측
예측의역할
무엇을예측할것인가?
예측분석소개
운항지연탐색
파이스파크로특징추출하기
scikit-learn으로회귀분석하기
스파크MLib으로분류기구축하기
결론
08.예측시스템배포
웹서비스로scikit-learn애플리케이션배포하기
에어플로우를사용해배치로스파크ML애플리케이션배포하기
스파크스트리밍을통한스파크ML배포
결론
09.예측개선
우리예측의문제점해결하기
예측을개선해야할때
예측성능개선
항공기데이터포함
운항시간포함시키기
결론

부록수동설치
하둡설치
스파크설치
몽고DB설치
몽고DB자바드라이버설치
mongo-hadoop설치
엘라스틱서치설치
ElasticsearchforHadoop설치
스파크환경설정
카프카설치
scikit-learn설치

출판사 서평

★이책에서다루는내용★
◎데이터-가치피라미드를사용해일련의애자일스프린트(agilesprint)를거치며데이터에서가치를창출
◎여러데이터셋으로부터통계모델을위한특징을추출
◎데이터를차트로시각화하고대화형리포트를통해다양한측면드러내기
◎기존데이터를사용해분류와회귀방식으로미래를예측
◎예측을행동으로전환하기
◎프로젝트가제대로진행될수있도록각스프린트후에사용자로부터피드백받기