데이터 조작과 시각화 파이썬 코드북

데이터 조작과 시각화 파이썬 코드북

$28.00
Description
이 책의 목적
이 책은 데이터 과학(Data science)에 입문할 때 기본적으로 알아야 할 주요 데이터 구조들을 조 작하는 방법과 데이터를 시각화 하는 방법을 빠르게 학습하는 것을 목적으로 한다.
먼저 〈1부 데이터 조작〉에서는 파이썬의 주요 자료 구조인 리스트, 배열, 딕셔너리, 데이터프레 임을 다루는 법을 배운다. 각 자료 구조를 생성하고, 특정 자료를 추출 및 편집하는 방법과 해당 자료 구조에서 유용하게 사용되는 주요 함수들과 메서드들을 살펴본다. 이로써 파이썬의 다양한 자료 구조들로 된 데이터를 분석자의 필요에 따라 자유자재로 조작할 수 있게 되기를 기대한다. 다음으로 〈2부 데이터 시각화〉에서는 파이썬의 대표적인 시각화 라이브러리인 Matplotlib와 Seaborn을 기반으로 탐색적 데이터 분석을 위한 시각화와 모델 관련 시각화를 다룬다. 이론적인 설명은 최대한 간략하게 소개하는 한편, 파이썬 코드를 통해 데이터를 조작하고 시각화 하는 방법을 익히는 것에 중점을 두었다. 이 때문에 책의 분량의 상당 부분을 파이썬 예제 코 드를 담는 것에 할애하였다. 또한, 각 학습 주제 별로 공부한 내용을 복습할 수 있도록 다양한 연습문제와 풀이를 제공하고 있다.

대상 독자
이 책은 파이썬으로 데이터 분석을 하고자 하는 입문자들을 위한 책이다. 파이썬 프로그래밍에 대한 배경 지식이 없더라도 책의 코드들을 따라 작성하고 실행하면서 데이터 조작과 시각화 방 법을 학습할 수 있다. 다만, 본 책에서 자세하게 다루고 있지 않은 프로그래밍 관련 기본적인 내 용들(예: 쥬피터 랩 설치 방법, 연산자, 반복문, if문 등)은 온라인 검색과 개인적인 학습을 통해 보충이 필요하다.

사용 가이드
이 책에 나온 파이썬 개발 환경(Integrated Development Environment)은 Jupyter lab version 3.0.12이다. 컴퓨터에 Jupyter lab을 설치한 후, 각종 라이브러리들을 추가로 설치해서 이 책의 코드들을 실행해 볼 수 있다.
이 방법이 여의치 않은 경우에는 별도의 설치가 필요 없는 Colaboratory를 사용하는 방법도 있 다. 웹(https://colab.research.google.com/)을 통해서 코드를 작성하고 실행하기 때문에 디바이 스나 장소에 구애 받지 않고 사용이 가능하다. 기본적인 라이브러리도 설치가 되어 있기 때문에 처음 개발 환경을 셋팅 하느라 소요되는 시간을 절약할 수 있다. 다만 일부 라이브러리는 추가로 설치해야 한다.
이 책의 목차는 학습의 흐름에 맞는 순서대로 구성이 되어 있지만, 이미 알고 있는 부분은 건너 뛰어도 무방하다. 각 학습 주제에 대해 추가적인 정보가 필요할 수 있기 때문에, 구글링이나 다 른 도서를 통해 내용을 보충하기를 권한다.
어떤 코드들은 데이터나 모델링 과정에서 무작위적(Random) 요소가 있어서 책에 나온 결과대 로 출력이 되지 않을 수도 있지만, 이는 코드의 문제가 아닌 자연스러운 결과이다.
저자

조정임

이화여자대학교에서중어중문학을전공한후,스마트폰,시스템반도체기업등에서해외영업및마케팅업무를하였다.이후,현장의데이터들을효과적으로업무에활용할방법을찾고자노베이스비전공자의어려움을무릅쓰고데이터과학의세계에뛰어들었다.알아갈수록새로운것이쏟아져나오는이흥미로운탐험을계속하며,하루하루충실하게살고있다.
ㆍ빅데이터전문가국비지원교육수료(2021)
ㆍ국가공인자격증데이터분석전문가ADP취득(2022)
ㆍKOPIS빅데이터분석공모전장려상수상(2022)
ㆍKHIDI공공데이터활용아이디어공모전우수상수상(2023)
ㆍ농림축산식품공공/빅데이터활용창업경진대회팜맵데이터최우수상수상(2023)
ㆍ〈핵심만요약한통계와머신러닝파이썬코드북〉,〈핵심만요약한데이터조작과시각화파이썬코드북〉집필

목차

1부데이터조작
1장리스트
1-1.리스트만들기:[]
1-2.리스트요소추출하기
인덱싱과슬라이싱
메서드로추출:index,count
1-3.리스트편집하기
추가하기:append,extend,+[],insert
수정하기:인덱싱과슬라이싱
삭제하기:pop,remove,set&list
1-4.리스트와유용한메서드들
정렬/역정렬하기:sort,reverse
리스트와문자열간변환:split,join
1-5.기타데이터구조와비교
리스트와튜플
리스트와셋
리스트와문자열
●연습문제와풀이

2장딕셔너리
2-1.딕셔너리만들기:{},dict
2-2.딕셔너리저장하기및불러오기
저장하기:텍스트파일저장하기,json.dump
불러오기:텍스트파일불러오기,json.load
2-3.딕셔너리요소추출하기:{}[‘key’],get,keys,values,items
2-4.딕셔너리편집하기
추가하기:{}[‘newkey’]=newvalue,update
수정하기:{}[‘key’]=newvalue,update
삭제하기:del,pop
●연습문제와풀이

3장배열
3-1.배열만들기:array,zeros,ones,arange,randint
3-2.배열저장하기및불러오기
3-3.배열요소추출하기
인덱싱과슬라이싱
최솟값및최댓값의인덱스추출:argmin,argmax
조건을만족하는요소의인덱스추출:where,any,all
3-4.배열편집하기
추가하기:append,insert
수정하기:인덱싱과슬라이싱
삭제하기:delete,unique
3-5.배열재구조화:shape,reshape,ravel,T(transpose)
3-6.배열연결하기:concatenate,c_,r_,hstack,vstack
3-7.배열과유용한함수들
통계:sum,mean,min,max,std,var,median,percentile,cumsum,cumprod
절댓값,제곱,제곱근:abs,power,sqrt
반올림,올림,버림:round,ceil,floor
지수와로그:exp,log,log10
스칼라곱,배열의요소별곱,행렬곱
●연습문제와풀이

4장데이터프레임
4-1.데이터프레임만들기:DataFrame
4-2.데이터프레임저장하기및불러오기
저장하기:to_csv,to_excel,to_json
불러오기:read_csv,read_excel,read_json
4-3.데이터추출하기
데이터의기본및요약정보:info,columns,index,shape,dtypes,describe
컬럼명과인덱스로데이터추출:df[‘column’],df[[‘column’]],filter,loc,iloc
조건을만족하는데이터추출:df[조건],query(‘조건’)
앞/뒤n행추출및랜덤샘플링:head,tail,sample
4-4.데이터프레임편집하기
데이터타입변경:astype
컬럼과인덱스편집:rename,set_index,reset_index
데이터추가:df[‘column’],loc
데이터수정:df[‘column’],loc,map,replace,apply
데이터삭제:drop,dropna,drop_duplicates
4-5.데이터프레임재구조화
행/열전환:T
범주형변수를기준으로집계:groupby
날짜/시간변수를기준으로집계:resample
열과행에새로운변수를지정하여집계(1):pivot_table
열과행에새로운변수를지정하여집계(2):crosstab
변수와값을기준으로재구조화:melt
4-6.데이터프레임연결하기:merge,concat
4-7.데이터프레임과유용한메서드들
범주형변수의정보확인:unique,nunique,value_counts
데이터정렬:sort_values
통계:sum,mean,median,std,var,max,min,mode,cumsum,quantile,rank...
왜도와첨도:skew,kurtosis
공분산과상관계수:cov,corr
●연습문제와풀이

2부데이터시각화
5장탐색적데이터분석을위한시각화
5-1.선그래프:plot,lineplot
5-2.누적연속그래프:stackplot
5-3.막대그래프:plot,countplot,barplot
5-4.히스토그램과KDE곡선:hist,histplot
5-5.상자그림과바이올린플롯:boxplot,violinplot
5-6.산점도와페어플롯:scatter,scatterplot,pairplot
5-7.파이차트와도넛차트:plot,pie
5-8.모자이크플롯:mosaic
5-9.히트맵:heatmap
5-10.등고선그래프:contour,contourf,clabel,colorbar
5-11.서브플롯그리기:subplots
5-12.트윈플롯그리기:twinx
●연습문제와풀이

6장모델관련시각화
6-1.트리기반모델특성중요도시각화:feature_importances_,barh
6-2.ROC곡선과정밀도-재현율곡선:roc_curve,precision_recall_curve,plot
6-3.회귀그래프:regplot
6-4.잔차분석그래프:resid,zscore,probplot,regplot
6-5.계층적군집시각화:linkage,dendrogram,cut_tree
6-6.비계층적군집시각화:inertia_,plot,scatterplot
6-7.실루엣다이어그램:silhouette_samples,silhouette_score,fill_betweenx
●연습문제와풀이