파이썬으로 배우는 데이터 과학
저자

샘라우,조셉곤잘레스,데보라놀란

저자:샘라우(SamLau)
캘리포니아대학교샌디에이고(UniversityofCalifornia,SanDiego)의할리시올루데이터과학연구소(HalicioluDataScienceInstitute)조교수입니다.10년간의교육경험을바탕으로UC버클리와UC샌디에이고에서대표적인데이터과학과정을설계하고가르치는데기여해왔습니다.

저자:조셉곤잘레스(JosephGonzalez)
캘리포니아버클리대학교(UniversityofCalifornia,Berkeley)의전자컴퓨터공학과부교수이며UC버클리RISE연구실의창립멤버입니다.연구관심분야는기계학습과데이터시스템이교차하는지점으로,세부적으로는전이학습을위한동적심층신경망,고해상도컴퓨터비전을위한가속화된딥러닝,자율주행차량용소프트웨어플랫폼등이있습니다.

저자:데보라놀란(DeborahNolan)
캘리포니아버클리대학교의컴퓨터,데이터과학및사회대학(CollegeofComputing,DataScience,andSociety)의통계학명예교수이자학부부학장으로,재임중학부교육학관련자파로니가문석좌교수(ZaffaroniFamilyChair)를역임했습니다.연구분야는경험적과정,고차원모델링,그리고최근에는교육및재현가능한연구기술입니다.데보라의교육학적접근방식은연구,실습,교육을아우릅니다.

역자:권정민
세상은데이터로이루어져있다고생각하며,이를잘활용하고자목표를가지고다양한데이터분석및활용방안을만들고연구하고있습니다.카이스트및포항공과대학교에서산업공학과전산학을전공했으며,다양한산업군에서데이터분석을해오고있으며,AIGDE로도활동하고있습니다.
저서로는『데이터분석가의숫자유감』,『데이터과학자원칙』(골든래빗),『데이터를엮는사람들,데이터과학자』(비제이퍼블릭),이있고,역서로는『파이썬을활용한베이지안통계』,『딥러닝과바둑』(한빛미디어),『빅데이터분석도구R프로그래밍』(에이콘출판사)등이있으며『실전데이터분석35』(책만),『딥러닝레볼루션』(한국경제신문사)등을감수했습니다.

목차

1부데이터과학주기
1장데이터과학주기
1.1데이터과학주기의단계
1.2데이터과학주기를보여주는예제
1.3정리

2장질문과데이터범위
2.1빅데이터와새로운기회
2.2대상집단,접근프레임,표본
2.3수단및프로토콜
2.4자연현상측정
2.5정확도
2.6정리

3장시뮬레이션과데이터설계
3.1항아리모델
3.2예제:선거여론조사의편향과변동시뮬레이션
3.3예제:백신무작위임상시험시뮬레이션
3.4예시:대기질측정
3.5정리

4장요약통계량모델링
4.1상수모델
4.2손실최소화
4.3정리

5장예제:왜내가타는버스는맨날늦을까?
5.1질문과범위
5.2데이터전처리
5.3버스시간탐색
5.4대기시간모델링
5.5정리

2부테이블데이터
6장Pandas를사용한데이터프레임다루기
6.1나누기
6.2집계
6.3조인
6.4변환
6.5데이터프레임은다른데이터표현형과어떻게다를까?
6.6정리

7장SQL을사용해서관계형데이터다루기
7.1나누기
7.2집계
7.3조인
7.4변환과공통테이블표현식(CTE)
7.5정리

3부데이터이해
8장파일처리
8.1데이터예제
8.2파일형식
8.3파일인코딩
8.4파일크기
8.5쉘과명령어
8.6테이블의형태및구분방식
8.7정리

9장데이터프레임전처리
9.1예제:마우나로아관측소에서의CO_2측정치전처리
9.2품질확인
9.3결측치와기록
9.4데이터변환과타임스탬프
9.5구조변경
9.6예제:식당안전성위반사항전처리
9.7정리

10장탐색적데이터분석
10.1특성유형
10.2분포를확인할때
10.3관계를확인할때
10.4다변량경우의비교
10.5탐색시의지침사항
10.6예제:주택거래가
10.7정리

11장데이터시각화
11.1구조파악을위한축의범위선택
11.2데이터평활법과집계
11.3의미있는비교유도하기
11.4데이터설계통합
11.5맥락추가하기
11.6plotly를사용해서그래프그리기
11.7그외시각화도구
11.8정리

12장예제:대기질측정내용은얼마나정확할까요?
12.1질문,설계,범위
12.2근처에배치된센서찾기
12.3AQS센서데이터전처리
12.4퍼플에어센서데이터전처리
12.5퍼플에어와AQS측정치탐색
12.6퍼플에어측정치보정을위한모델생성
12.7정리

4부다른유형의데이터
13장텍스트다루기
13.1텍스트와처리작업예제
13.2문자열조작
13.3정규표현식
13.4텍스트분석
13.5정리

14장데이터교환
14.1NetCDF데이터
14.2JSON데이터
14.3HTTP
14.4REST
14.5XML,HTML및XPath
14.6정리

5부선형모델링
15장선형모델링
15.1단순선형모델
15.2예제:대기질측정을위한단순선형모델
15.3단순선형모델적합화
15.4다중선형모델
15.5다중선형모델적합화
15.6예제:어디에기회의땅이있습니까?
15.7수치측정치를위한특성공학
15.8범주형측정치를위한특성공학
15.9정리

16장모델선택
16.1과적합
16.2훈련-테스트분할
16.3교차검증
16.4정규화
16.5모델편향및분산
16.6정리

17장추론및예측이론
17.1분포:모집단,경험치,표본추출
17.2가설검정의기본사항
17.3추론을위한부트스트랩
17.4신뢰구간의기본사항
17.5예측구간의기본사항
17.6추론및예측을위한확률
17.7정리

18장예제:당나귀의체중을재는법
18.1당나귀연구의질문및범위
18.2전처리및변환
18.3탐색
18.4당나귀의체중모델링
18.5정리

6부분류
19장분류
19.1예제:바람에피해를입은나무
19.2모델링및분류
19.3비율(및확률)모델링
19.4로지스틱모델의손실함수
19.5확률에서분류로
19.6정리

20장수치최적화
20.1경사하강법의기본사항
20.2후버손실최소화하기(MinimizingHuberLoss)
20.3볼록하고미분가능한손실함수
20.4경사하강법의변형
20.5정리

21장예제:가짜뉴스탐지
21.1질문과범위
21.2데이터수집및전처리
21.3데이터탐색
21.4모델링
21.5정리

부록1추가자료
부록2데이터원본

출판사 서평

이책은가장기본적인데이터과학의주기를알려주는것으로시작합니다.가장기초적이면서도가장중요한부분입니다.데이터를얻고,이해하고,상황을이해하는것은데이터과학자가갖춰야하는기본적인소양이라고할수있습니다.그리고데이터를아무리많이갖고있더라도제대로된질문이없다면데이터분석에의미가없어집니다.이책은실제데이터를다루면서질문을시작으로어떻게탐색할수있는지를보여줍니다.
이론적으로생각해야할전체적인과정과실제데이터를통해어떻게분석하고예측할수있는지설명하고있어데이터과학자라면꼭필요한내용을배울수있었습니다.
이책에있는분석방법과예제를반복학습해보면서데이터과학자에입문해보시기바랍니다.

역자의말

오늘날우리는인공지능(AI)이많은것을해결해주는시대에살고있습니다.버튼하나로복잡한데이터분석이가능해지고,정교한예측모델이순식간에만들어지기도합니다.하지만화려한기술의이면에는여전히데이터를이해하고올바른질문을던지며,분석결과를비판적으로해석하는‘사람’의역할이중요하게자리하고있습니다.인공지능이라는강력한도구를제대로활용하는시대를맞이하면서,우리는데이터분석의근간을이루는기본원리와철학을명확히이해하고있어야합니다.그런의미에서이책은데이터분석가와데이터과학자를꿈꾸는이들은물론,이미현업에서데이터를다루고있는분들에게도자신의지식을점검하고새로운영감을얻을수있는훌륭한길잡이가되어줄것이라고생각합니다.