실전 데이터 분석 with 파이썬

실전 데이터 분석 with 파이썬

$44.00
Description
5개의 케이스 스터디로 알아보는 실전 데이터 분석 프로젝트!
인공지능의 발전으로 데이터를 수집하고 분석하는 방법이 더욱 다양해진 지금, 이 기술들을 실무에서는 어떻게 활용하고 적용하고 있을까? 데이터 분석을 공부하고 기초를 다졌다면, 이제는 가치 있는 데이터를 가려내고 정보를 얻어낼 수 있는 실질적인 능력을 길러야 할 때이다. 이 책은 실제 데이터 분석가들이 자주 다루는 유형의 문제들을 가져와 문제를 파악하고 솔루션을 내는 과정까지 모두 살펴본다. 이러한 데이터 분석 프로젝트를 진행해보고 전체 흐름을 익힌다면 분명 앞으로 하게 될 실무에 도움이 될 것이다. 코드는 파이썬으로 이루어져 있으며, 여러 메서드를 사용하면서 결과 값이 어떻게 나오는지 직접 눈으로 확인할 수 있다. 또, 매 장마다 개념이 일목요연하게 정리되어 있어서 복습하기에도 용이하다. 깊이 있게 데이터 분석을 배우고 싶다면 당장 이 책으로 시작해 보자!

저자

레널드아펠신

저자:레널드아펠신
현재Anomaly의데이터과학책임자이다.Anomaly이전에는자연어처리를전문으로하는스타트업인PrimerAI에서머신러닝을연구했고,창립멤버로서PrimerAI팀을4명에서거의100명의직원으로성장시키는데도움을주었다.스타트업에진출하기전에는학계에서일하면서유전적으로연관된질병의숨겨진패턴을발견했고,그내용이사이언스앤네이처저널의자회사에게재되었다.
카네기멜론대학교에서생물학및컴퓨터과학학사학위를,샌프란시스코캘리포니아대학교에서생물정보학박사학위를취득했다.인공지능과머신러닝에전문가인엔지니어링디렉터로,코넬대학교에서컴퓨터과학학사,카네기멜런대학교에서로봇학박사학위를받았다.대학원연구시절잠재적인킬러소행성을감지하기위한알고리즘개발에참여했다.『TheCSDetective』(NoStarchPress,2016)를저술했고,‘ComputationalFairyTales‘블로그도작성했다.

역자:박찬성
한국전자통신연구원에서네트워크제어/관리/지능화시스템을구축하는일을하며,컴퓨터에서일어나는전반적인일에관심이많습니다.특히최근몇년간은머신러닝모델의라이프사이클을관리하고머신러닝시스템을운영하는MLOps와더불어,생성형AI모델을튜닝하고모델링하는방법과이를운영하는LLMOps분야에도많은관심을가지고허깅페이스펠로(HuggingFaceFellow),구글디벨로퍼스엑스퍼트(GoogleDevelopersExpert)등다양한커뮤니티활동을병행하고있습니다.

목차

1부첫번째사례탐구:카드게임의승리전략탐색
1장파이썬으로확률을계산하는방법
1.1표본공간분석:방정식없이결과의불확실성을측정하는접근법
__1.2.1문제1:네자녀를둔가족분석하기
__1.2.2문제2:다면체주사위를굴렸을때분석하기
__1.2.3문제3:가중된표본공간으로주사위를굴렸을때확률계산하기
1.2사소한확률계산문제
1.3구간에대한확률계산
__1.3.1구간분석법으로극단평가
1.4요약

2장맷플롯립으로확률그래프그리기
2.1맷플롯립으로그래프그리기
2.2동전뒤집기확률그래프그리기
__2.2.1여러동전뒤집기확률분포도비교하기
2.3요약

3장넘파이로무작위시뮬레이션수행하기
3.1넘파이로무작위동전뒤집기와주사위던지기시뮬레이션하기
__3.1.1편향된동전뒤집기분석
3.2히스토그램과넘파이배열로계산하는신뢰구간
__3.2.1히스토그램내유사한점들을묶기
__3.2.2히스토그램에서확률구하기
__3.2.3고신뢰구간의범위줄이기
__3.2.4넘파이로히스토그램계산하기
3.3신뢰구간으로편향된카드덱분석하기
3.4순열로카드뒤섞기
3.5요약

4장첫번째사례탐구의솔루션
4.1뒤섞은카드덱에서빨간색카드예측하기
__4.1.1전략의성공확률추정하기
4.2열장으로구성된카드덱하나에대한표본공간으로전략최적화하기
4.3요약

2부두번째사례탐구:온라인광고클릭의유의성평가하기
5장사이파이를사용한기본확률및통계분석
5.1사이파이로데이터와확률간관계탐색하기
5.2중심성의척도로서평균
__5.2.1확률분포의평균구하기
5.3흩어진정도를측정하는분산
__5.3.1확률분포의분산구하기

6장사이파이와중심극한정리로예측하기
6.1사이파이로정규분포다루기
__6.1.1샘플링된정규분포곡선두개비교하기
6.2무작위샘플링으로모집단의평균및분산결정하기
6.3평균과분산을이용하여예측하기
__6.3.1정규곡선아래면적계산하기
__6.3.2계산된확률해석하기
6.4요약

7장통계적가설검정
7.1표본평균과모집단평균간차이평가하기
7.2데이터드레징:오버샘플링을이용한잘못된결론도출하기
7.3복원추출을이용한부트스트랩:모집단분산을알수없을때가설테스트하기
7.4순열테스트:모집단의매개변수를알수없는경우표본수단비교하기
7.5요약

8장판다스를사용한테이블분석하기
8.1기본파이썬기능으로테이블저장하기
8.2판다스로테이블탐색하기
8.3테이블의열가져오기
8.4테이블의행가져오기
8.5테이블의행과열수정하기
8.6테이블데이터저장및불러오기
8.7시본으로테이블시각화하기
8.8요약

9장두번째사례탐구의솔루션
9.1판다스로광고클릭테이블처리하기
9.2평균의차이로p-값계산하기
9.3통계적유의성결정하기
9.441가지파란색색조:실제사례로알아보는주의사항
9.5요약

3부세번째사례탐구:뉴스헤드라인으로질병발생추적하기
10장데이터그룹화하기
10.1중심성으로클러스터발견하기
10.2K-평균:중심그룹K개로데이터를그룹화하는클러스터링알고리즘
__10.2.1사이킷런을사용한K-평균클러스터링
__10.2.2엘보방법으로최적의K선택하기
10.3밀도를사용하여클러스터검색하기
10.4DBSCAN:공간밀도에따라데이터를그룹화하는클러스터링알고리즘
__10.4.1DBSCAN과K-평균비교하기
__10.4.2비유클리드거리기반클러스터링
10.5판다스로클러스터분석하기
10.6요약

11장지리적위치의시각화및분석
11.1대원거리:지구상두점사이의거리를계산하는지표
11.2카토피로지도시각화하기
__11.2.1지오스및카토피수동설치하기
__11.2.2콘다패키지관리자활용
__11.2.3지도시각화
11.3GeoNamesCache를사용한위치추적
__11.3.1국가정보접근
__11.3.2도시정보접근
__11.3.3GeoNamesCache라이브러리의제약
11.4텍스트내지명찾기
11.5요약

12장세번째사례탐구의솔루션
12.1헤드라인데이터에서위치추출하기
12.2추출된위치데이터시각화및클러스터링
12.3위치클러스터에서인사이트추출하기
12.4요약

4부네번째사례탐구:온라인채용공고로데이터과학자의이력서개선하기
13장텍스트유사성측정
13.1간단한텍스트비교
__13.1.1자카드유사도탐색
__13.1.2단어를숫자값으로바꾸기
13.2단어수를사용하여텍스트벡터화하기
__13.2.1정규화로TF벡터유사도개선하기
__13.2.2단위벡터내적으로관련성지표간변환하기
13.3효율적인유사도계산을위한행렬곱셈
__13.3.1기본행렬연산
__13.3.2전체행렬에대한유사도계산하기
13.4행렬곱셈의계산한계
13.5요약

14장행렬데이터의차원감소
14.12D데이터를단일차원으로그룹화하기
__14.1.1회전으로차원줄이기
14.2PCA와사이킷런으로차원감소시키기
14.34D데이터를2차원으로그룹화하기
__14.3.1PCA의제한사항
14.4회전없이주성분계산하기
14.5SVD및사이킷런으로효율적인차원축소하기
__14.4.1거듭제곱반복으로고유벡터추출하기
14.6요약

15장대용량텍스트에대한자연어처리분석
15.1사이킷런으로웹토론포럼데이터셋불러오기
15.2사이킷런으로문서벡터화하기
15.3게시글빈도및개수로단어의순위매기기
__15.3.1사이킷런으로TFIDF벡터계산하기
15.4대규모문서데이터셋의유사성계산하기
15.5주제별로텍스트그룹화하기
__15.5.1단일텍스트클러스터탐색하기
15.6텍스트클러스터시각화하기
__15.6.1하위그래프로여러워드클라우드표시하기
15.7요약

16장웹페이지의텍스트추출하기
16.1HTML문서구조
16.2BeautifulSoup으로HTML파싱하기
16.3웹데이터내려받기및파싱하기
16.4요약

17장네번째사례탐구의솔루션
17.1채용공고데이터에서기술요구사항추출하기
__17.1.1기술을설명하는HTML살펴보기
17.2관련성별로작업필터링하기
17.3관련채용공고에서스킬클러스터링
__17.3.1직무기술을그룹15개로그룹화하기
__17.3.2기술클러스터조사하기
__17.3.3소프트스킬클러스터조사하기
__17.3.4다른K값으로그룹탐색하기
__17.3.5가장관련성이높은게시물700개분석하기
17.4결론
17.5요약

5부다섯번째사례탐구:소셜네트워크데이터로미래의친구관계예측
18장그래프이론및네트워크분석
__18.1.1NetworkX로웹네트워크분석하기
18.1기본그래프이론으로인기도별웹사이트순위지정하기
18.2비방향성그래프로마을간이동시간최적화하기
__18.2.1마을과지역에대한복잡한네트워크모델링하기
__18.2.2노드간가장빠른이동시간계산하기
18.3요약

19장노드순위매기기및소셜네트워크분석을위한동적그래프이론기법
19.1네트워크의예상트래픽을기반으로중앙노드발견하기
__19.1.1교통시뮬레이션으로중심도측정하기
19.2행렬곱셈으로이동확률계산하기
__19.2.1확률이론으로페이지랭크중심성도출하기
__19.2.2NetworkX로페이지랭크중심성계산하기
19.3마르코프그룹화로커뮤니티감지하기
19.4소셜네트워크에서친구그룹찾기
19.5요약

20장네트워크기반지도학습
20.1지도학습의기본사항
20.2예측레이블정확도측정하기
__20.2.1사이킷런의예측측정기능
20.3KNN성능최적화
20.4사이킷런으로격자탐색수행하기
20.5KNN알고리즘의한계
20.6요약

21장로지스틱회귀로선형분류모델학습
21.1규모별로고객을선형적으로분리하기
21.2선형분류모델학습시키기
__21.2.1표준화를이용하여퍼셉트론성능향상시키기
21.3로지스틱회귀를이용한선형분류개선하기
__21.3.1특징두개이상에서로지스틱회귀수행하기
21.4사이킷런을사용하여선형분류모델학습시키기
__21.4.1다중클래스에대한선형모델학습시키기
21.5계수로특징중요도측정하기
21.6선형분류모델의제한사항
21.7요약

22장의사결정으로비선형분류모델학습
22.1논리규칙자동학습하기
__22.1.1두특징으로중첩된if/else모델학습시키기
__22.1.2분할할특징결정하기
__22.1.3특징둘이상을다루는if/else모델학습시키기
22.2사이킷런으로의사결정분류모델학습시키기
__22.2.1특징중요도를이용한암세포연구하기
22.3의사결정분류모델의제한사항
22.4랜덤포레스트분류모델로성능개선하기
22.5사이킷런으로랜덤포레스트분류모델학습시키기
22.6요약

23장다섯번째사례탐구의솔루션
23.1데이터탐색하기
__23.1.1프로필살펴보기
__23.1.2실험관찰결과살펴보기
__23.1.3친구관계연결테이블살펴보기
23.2네트워크특징을사용하여예측모델학습시키기
23.3모델에프로필관련특징추가하기
23.4안정적인특징집합에대한성능최적화
23.5학습된모델해석하기
__23.5.1일반화가능한모델은왜중요할까요?
23.6요약
찾아보기

출판사 서평

실제데이터분석가들이다루는프로젝트로실전능력을키워보자!

“수많은리뷰데이터에서가치있는정보를얻으려면어떤분석기법을써야할까요?”
우리가데이터분석기초를학습했다면저마다배운개념을토대로다양한텍스트분석기법을제시할것이다.더나아가그기법이무엇인지,어떻게사용하는지이론을설명하는건어렵지않을것이다.그럼다음과같은요청을받는다면어떨까?

“광고캠페인을실행할준비를하고있습니다.더많은구매를유도할수있도록채널별조회수와클릭수를비교하고더욱효과적인채널을선택해주세요.”
이런요청을받는다면어떨까?어떤클릭이의미있는클릭이고어떤클릭이순전히무작위로발생한클릭일지분석해볼계획을바로머리에떠올릴수있을까?다양한분석툴,데이터분석과정(수집,전처리,분석,시각화,예측)등데이터분석에관한이론은어느정도능숙해졌지만,막상이런실전앞에서는머리가하얘질수도있다.
하나의케이스를두고데이터를분석하는프로젝트는코드와알고리즘,데이터셋,시각화까지조화롭게다룰줄알아야하고,익숙해지는데까지는수많은연습이필요하다.이책은실제데이터분석가들이매일다루는문제중에서5가지케이스를가져와문제파악부터솔루션까지전과정을설명한다.복잡한데이터나지저분한데이터를정제하는법,예측모델에맞지않는알고리즘을해결하는방법등프로젝트를진행하면서마주할수있는어려운상황에서어떻게해결해야할지실용적인솔루션까지알려준다.지금까지습득한이론을바탕으로실질적인데이터분석프로젝트를경험해보고싶다면이책으로넘어가보자!