데이터 과학 입문과 실습 (소규모 데이터셋 처리부터 빅데이터 처리, 머신러닝, 시각화까지)

데이터 과학 입문과 실습 (소규모 데이터셋 처리부터 빅데이터 처리, 머신러닝, 시각화까지)

$28.46
Description
《파이썬으로 배우는 데이터 과학 입문과 실습》은 데이터 과학의 주요 개념을 설명하고 데이터 과학자로서 기본적인 작업을 완수할 수 있는 법을 가르친다. 데이터 과학의 진행 과정과 데이터 시각화, 그래프 데이터베이스, NoSQL 사용법 등을 살펴보고, 파이썬 언어 및 파이썬 라이브러리를 사용해 큰 규모의 데이터를 다뤄 본다. 데이터의 규모가 너무 크거나 생성 속도가 너무 빨라서 한 대의 컴퓨터로 처리하기 힘든 경우에 파이썬을 어떻게 활용할 수 있는지도 살펴본다. 또한 유명한 파이썬 데이터 과학 라이브러리인 사이킷런(Scikit-learn)과 스태츠모델스(StatsModels)도 탐구해 본다. 이 책을 읽은 후에는 데이터 과학의 커리어를 시작하는 데 필요한 탄탄한 기본기를 갖추게 될 것이다.

★ 이 책에서 다루는 내용 ★
◎ 대규모 데이터 처리
◎ 머신러닝 소개
◎ 파이썬으로 데이터 다루기
◎ 데이터 과학 알고리즘 작성
저자

데이비실린

저자데이비실린(DavyCielen)
데이비실린은창업가,저자,교수다.각각벨기에와영국에있는데이터과학회사인옵티메이틀리(Optimately)와메이튼(Maiton)을아르노(Arno)와모하메드(Mohamed)와함께공동으로소유하고있으며,소마릴란드에있는데이터과학회사도공동으로소유하고있다.이회사들은빅데이터과학의전략을주로다루며,많은대기업에컨설팅을한다.데이비는프랑스릴의IESEG경영대학원에서빅데이터과학분야를가르치고연구하는겸임교수다.

목차

▣01장:빅데이터세상에서의데이터과학
1.1.데이터과학및빅데이터의이점과활용
1.2.데이터종류
___1.2.1.구조적데이터
___1.2.2.비구조적데이터
___1.2.3.자연어
___1.2.4.기계생성데이터
___1.2.5.그래프데이터또는네트워크데이터
___1.2.6.오디오,이미지,비디오
___1.2.7.스트리밍데이터
1.3.데이터과학과정
___1.3.1.연구목표설정
___1.3.2.데이터획득
___1.3.3.데이터준비
___1.3.4.데이터탐색
___1.3.5.데이터모델링또는모델구축
___1.3.6.발표및자동화
1.4.빅데이터생태계와데이터과학
___1.4.1.분산파일시스템
___1.4.2.분산프로그래밍프레임워크
___1.4.3.데이터통합프레임워크
___1.4.4.머신러닝프레임워크
___1.4.5.NoSQL데이터베이스
___1.4.6.스케줄링도구
___1.4.7.벤치마크도구
___1.4.8.시스템배포
___1.4.9.서비스프로그래밍
___1.4.10.보안
1.5.하둡작업의예
1.6.요약

▣02장:데이터과학진행과정
2.1.데이터과학진행과정개요
___2.1.1.과정의노예가되지마라
2.2.1단계:연구목표설정및프로젝트사명서작성
___2.2.1.연구의목표와맥락을이해하는데시간을투자하라
___2.2.2.프로젝트사명서작성
2.3.2단계:데이터획득
___2.3.1.회사내에저장된데이터로시작하기
___2.3.2.여기저기서데이터를사는일을두려워마라
___2.3.3.문제가일어나지않게데이터의품질을미리확인하라
2.4.3단계:데이터정제,통합,변환
___2.4.1.데이터정제
___2.4.2.오류를최대한일찍수정하라
___2.4.3.서로다른출처로부터얻은데이터합치기
___2.4.4.데이터변환
2.5.4단계:탐색적데이터분석
2.6.5단계:모델구축
___2.6.1.모델과변수선택
___2.6.2.모델링실시
___2.6.3.모델분석과비교
2.7.6단계:분석결과표현과애플리케이션구축
2.8.요약

▣03장:머신러닝
3.1.머신러닝의정의와중요성
___3.1.1.데이터과학에머신러닝을적용
___3.1.2.데이터과학진행과정에서머신러닝이사용되는곳
___3.1.3.머신러닝에사용하는파이썬도구
3.2.모델링과정
___3.2.1.특성공학과모델선택
___3.2.2.모델훈련
___3.2.3.모델검증
___3.2.4.새로운관찰을예측하기
3.3.머신러닝종류
___3.3.1.지도학습
___3.3.2.비지도학습
___3.3.3.준지도학습
3.4.요약

▣04장:컴퓨터한대에서대량데이터다루기
4.1.대량데이터를다룰때의문제
4.2.대량데이터를처리하는일반적인기법
___4.2.1.적절한알고리즘선택
___4.2.2.적절한데이터구조선택
___4.2.3.적절한도구선택
4.3.대규모데이터셋을다룰때의일반적인프로그래밍지침
___4.3.1.바퀴를재발명하지말라
___4.3.2.하드웨어성능을최대한활용하라
___4.3.3.컴퓨팅의필요를줄여라
4.4.사례연구1:해로운URL여부예측
___4.4.1.1단계:연구목표설정
___4.4.2.2단계:URL데이터얻기
___4.4.3.4단계:데이터탐색
___4.4.4.5단계:모델구축
4.5.사례연구2:데이터베이스에추천시스템구축
___4.5.1.필요한도구및기법
___4.5.2.1단계:연구질문
___4.5.3.3단계:데이터준비
___4.5.4.5단계:모델구축
___4.5.5.6단계:표현및자동화
4.6.요약

▣05장:빅데이터첫걸음
5.1.프레임워크를이용해데이터저장과처리를분산화하기
___5.1.1.하둡:대규모데이터셋을저장하고처리하기위한프레임워크
___5.1.2.스파크:더높은성능을내기위해맵리듀스를대체
5.2.사례연구:금전대출위험평가
___5.2.1.1단계:연구목표설정
___5.2.2.2단계:데이터획득
___5.2.3.3단계:데이터준비
___5.2.4.4단계:데이터탐색&6단계:보고서구축
5.3.요약

▣06장:NoSQL운동에동참하기
6.1.NoSQL개요
___6.1.1.ACID:관계형데이터베이스의핵심원리
___6.1.2.CAP정리:여러노드에걸쳐존재하는DB의문제
___6.1.3.NoSQL데이터베이스의BASE원칙
___6.1.4.NoSQL데이터베이스의종류
6.2.사례연구:질병진단
___6.2.1.1단계:연구목표설정
___6.2.2.2단계와3단계:데이터획득및준비
___6.2.3.4단계:데이터탐색
___6.2.4.3단계를반복:질병프로파일링을위한데이터준비
___6.2.5.4단계를반복:질병프로파일링을위한데이터탐색
___6.2.6.6단계:표현및자동화
6.3.요약

▣07장:그래프데이터베이스의부상
7.1.연결데이터와그래프데이터베이스
___7.1.1.그래프데이터는무엇이며언제사용해야하는가?
7.2.네오포제이(Neo4j):그래프데이터베이스
___7.2.1.사이퍼(Cypher):그래프질의언어
7.3.연결데이터예제:요리법추천엔진
___7.3.1.1단계:연구목표설정
___7.3.2.2단계:데이터획득
___7.3.3.3단계:데이터준비
___7.3.4.4단계:데이터탐색
___7.3.5.5단계:데이터모델링
___7.3.6.6단계:표현
7.4.요약

▣08장:텍스트마이닝과텍스트분석
8.1.실제세계에서의텍스트마이닝
8.2.텍스트마이닝기법
___8.2.1.단어주머니
___8.2.2.형태소처리와표제어추출
___8.2.3.의사결정트리분류기
8.3.사례연구:레딧게시물분류
___8.3.1.자연어도구사용하기
___8.3.2.데이터과학과정개요및1단계:연구목표
___8.3.3.2단계:데이터획득
___8.3.4.3단계:데이터준비
___8.3.5.4단계:데이터탐색
___8.3.6.3단계를반복:데이터준비적응
___8.3.7.5단계:데이터분석
___8.3.8.6단계:발표및자동화
8.4.요약

▣09장:최종사용자를위한데이터시각화
9.1.데이터시각화의선택사항
9.2.Crossfilter:자바스크립트맵리듀스라이브러리
___9.2.1.구성
___9.2.2.크로스필터를사용해의약품데이터셋을필터링
9.3.dc.js로상호작용대시보드만들기
9.4.대시보드개발도구
9.5.요약

▣부록A:일래스틱서치설치
A.1.리눅스에일래스틱서치설치하기
A.2.윈도우에일래스틱서치설치하기

▣부록B:Neo4j설치
B.1.리눅스에Neo4j설치하기
B.2.윈도우에Neo4j설치하기

▣부록C:MySQL서버설치
C.1.윈도우에MySQL서버설치하기
C.2.리눅스에MySQL서버설치하기

▣부록D:아나콘다설치및가상환경구성
D.1.리눅스에아나콘다설치하기
D.2.윈도우에아나콘다설치하기
D.3.환경설정