따라하며 배우는 빅데이터 분석

따라하며 배우는 빅데이터 분석

$39.31
Description
데이터는 현대 사회의 새로운 자원으로 자리 잡았다. 오늘날 우리는 스마트폰의 사용, 소셜 미디어의 이용, 검색 등을 통해서 알게 모르게 일상생활에서 엄청난 양의 데이터를 생성하고 소비하고 있다. 이러한 방대한 데이터는 적절히 분석되고 활용될 경우 비즈니스, 과학, 기술, 그리고 사회 전반에 걸쳐 큰 가치를 창출할 수 있다. 이러한 데이터를 효과적으로 분석하고 활용하기 위해서는 빅데이터 분석이라는 도구가 필수적이다.
이 책을 집필하게 된 이유는 빅데이터가 더 이상 선택이 아닌 필수가 된 시대에, 실제 적용 가능한 빅데이터 분석 기법을 소개하고, 나아가 최신 인공지능 기술을 활용한 코딩 기법을 보다 쉽게 이해하고 따라할 수 있는 책이 필요하다고 느꼈기 때문이다. 많은 이들이 빅데이터와 인공지능의 가능성을 이야기하지만, 정작 어떻게 실무에 적용하고, 문제를 해결하는지에 대한 명확한 가이드라인을 제시하는 책은 부족한 실정이다.
저자

박동규

1993年부산대학교전자계산학과이학사
1996年부산대학교전자계산학과이학석사
1999年부산대학교전자계산학과이학박사
2002年~현재창원대학교정보통신공학과교수
2007年미국카네기멜론대학교(CMU)방문교수
2012年미국텍사스A&M대학교방문교수
2021年부산대학교컴퓨터및정보통신연구소방문교수

창원대학교정보전산원장,창원시스마트모바일앱센터장역임
"널널한교수의코딩클래스"유튜브채널운영중

목차

Chapter01빅데이터로통하는세상
1.1데이터와정보,그리고지식
1.2디지털세상과정보의표현
1.3디지털데이터의용량
1.4정보의원천빅데이터
1.5스프레드시트와데이터베이스
1.6데이터분석활용사례
1.7데이터중심의과학
1.8데이터과학이란
1.9데이터과학자를위한다양한플랫폼
1.10데이터마켓과열린데이터
1.11데이터분석의단계
LAB1-1구글트렌드살펴보기
LAB1-2빅데이터의원천인소셜미디어
핵심정리
주관식문제

Chapter02데이터분석을위한도구
2.1강력한객체지향프로그래밍언어:파이썬
2.2아나콘다개발도구를설치하고사용해보자
2.3주피터노트북둘러보기
2.4주피터노트북으로파이썬코드를입력하자
2.5주피터노트북의여러가지기능들
2.6주피터노트북의고급기능
2.7클라우드환경의개발은코랩으로편리하게
2.8구글코랩환경알아보기
2.9코랩디스크마운트하고파일올리기
2.10코랩디스크의파일확인하기
LAB2-1구글코랩에서홍길동딕셔너리만들기
LAB2-1반복을이용하여팩토리얼을계산하기
핵심정리
주관식문제
심화문제


Chapter03넘파이시작하기
3.1데이터분석에서중요한넘파이
3.2넘파이의별칭만들기,그리고간단한배열연산하기
3.3강력한넘파이배열연산을알아보자
LAB3-1ndarray객체를생성하고속성을알아보자
LAB3-2ndarray객체의연산을수행하자
3.4넘파이배열계산은왜빠른가
3.5벡터화연산의성능을알아보자
LAB3-3ndarray객체를생성하고브로드캐스팅연산을수행하자
3.6인덱싱과슬라이싱을넘파이에서도할수있다
3.72차원배열의인덱싱
3.82차원배열슬라이싱하기
LAB3-42차원배열에대한부울인덱싱
LAB3-5배열의형태를알아내고슬라이싱하여연산하기
3.9arange()함수와range()함수의비교
3.10linspace()함수와logspace()함수
3.11다차원배열을결합하자
3.12다차원배열을결합하는다양한방법
LAB3-6이차원배열조작하기
LAB3-7이차원배열을조작하여값을쌍으로추출하자
3.13다차원배열의축과원소의삽입
핵심정리
주관식문제
심화문제

Chapter04넘파이의세계로
4.1다차원배열의최대값,최소값,평균값구하기와정렬
4.2평균값과중앙값을알아보자
LAB4-1입력값의합,최대값,최소값,평균값출력하기
LAB4-2다차원배열의평균구하기와정렬하기
4.3중앙값과최빈값을알아보자
4.4분산과편차를알아보자
4.5평균,분산,표준편차를알아보자
LAB4-3입력값의평균,분산,표준편차구하기
LAB4-4어느모둠의분산이가장큰가
4.6난수와의사난수
4.7난수와정규분포
4.8다양한난수생성기능
LAB4-5로또번호를생성하자
LAB4-6평균과중앙값계산연습
4.9리덕션:강력한배열연산
4.10상관관계계산하기
핵심정리
주관식문제
심화문제

Chapter05맷플롯립알아보기
5.1데이터시각화
5.2matplotlib의다양한기능맛보기
5.3차트장식을도와주는다양한기법들
LAB5-1함수를표현해보자
LAB5-2랜덤값을이차원평면에표현해보자
5.4넘파이를이용한함수그리기,범례표기
LAB5-3삼각함수의기본인사인그래프그리기
LAB5-4여러가지함수와범례나타내기
5.5막대형차트도손쉽게그려보자
5.6눈금표시방법을알아보자
5.7데이터를점으로표현하는산포도그래프와파이차트
5.8히스토그램으로자료의분포를한눈에살펴보자
LAB5-5정규분포로생성된난수를확인하기
LAB5-6차종별판매량을파이차트로표현하자
5.9데이터를효율적으로표현하는상자플롯
5.10여러개의상자플롯을그려보자
5.11하나의차트에여러그래프그리기:subplots()
LAB5-7서브플롯활용하기
핵심정리
주관식문제
심화문제

Chapter06시본알아보기
6.1데이터사이의관련성을알아보자
6.2상관계수를넘파이로표현하기
6.3상관계수의시각화와해석
6.4간단한시본튜토리얼로시작하기
6.5tips데이터의구조
6.6산점도그래프로관계를상세하게나타내보자
6.7변수사이의관계를알아보기에편리한쌍그래프
6.8FacetGrid알아보기
LAB6-1groupby()를이용한그루핑과시각화
LAB6-2배열의형태를알아내고슬라이싱하여연산하기
6.9사례분석:시본의다양한데이터셋과펭귄데이터셋
6.10펭귄데이터셋의시각화
6.11펭귄데이터셋의전체구조를파악하고질의를하자
6.12사례분석:Anscombe’squartet데이터셋
6.13비선형함수를사용하여데이터를설명하자
6.14사례분석:항공기이용승객데이터셋
6.15항공기이용승객데이터셋을고쳐보자
6.16히트맵을알아보자
핵심정리
주관식문제
심화문제

Chapter07판다스시작하기
7.1엑셀보다빠른일처리를위한판다스
7.2CSV라고들어봤니
7.3CSV파일을판다스에서읽기
7.4데이터프레임을다루는간단한명령
7.5판다스의데이터구조:시리즈둘러보기
7.6시리즈로데이터프레임만들기
LAB7-1간단한시리즈를만들자
LAB7-2간단한데이터프레임을만들자
7.7데이터프레임시각화기능과한글나타내기
7.8고급시각화기능을알아보자238
7.9앞부분과뒷부분만읽어보자:head와tail
7.10데이터를찾기위한인덱싱기법
7.11고급인덱싱기법
7.12새로운열을만들어보자
7.13데이터를정렬하여평점을부여하고저장하자
핵심정리
주관식문제
심화문제

Chapter08판다스의알짜기능
8.1사례분석:울릉도의날씨를알아보자
8.2울릉도날씨의특징을살펴보자
8.3연도와월,일을다루는DatetimeIndex
8.4groupby기능과불필요한정보를삭제하는drop
8.5데이터의그룹연산:분할-적용-결합
8.6시퀀스에서필요한정보를찾는iloc,loc
LAB8-1울릉도의기상정보를연도별로출력하자
LAB8-2울릉도의월평균기온을시각화하자
8.7조건에맞게골라내자:max,idxmax
8.8조건에맞게골라내자:필터링
8.9빠진값을찾아서처리하자:결측값
8.10결측값이있는행과열을제거하자
8.11결측값을메우는다양한방법
8.12inplace로데이터프레임을갱신하자
8.13결측값과이상치를처리하자
8.14이상치를찾아보자
8.15데이터프레임에서이상치를찾아보자
핵심정리
주관식문제
심화문제

Chapter09판다스파헤치기
9.1중복데이터를제거하자
9.2중복데이터를제거하고데이터를변형하자
9.3데이터프레임의인덱스와열이름을수정하자
LAB9-1인덱스와열의이름을변경하자
LAB9-2중복데이터제거하기
9.4데이터프레임의구조를변경해보자
9.5pivot_table을활용하자
9.6pivot_table의고급기능을알아보자
LAB9-3데이터의구조를변경하자
LAB9-4타이타닉데이터의구조를살펴보자
9.7두개이상의데이터프레임을합치는방법
9.8데이터프레임을합치는고급기능
LAB9-5다양한방법으로concat적용해보기
9.9데이터베이스join방식의데이터병합-merge
LAB9-6다양한방법으로merge적용해보기
핵심정리
주관식문제
심화문제

Chapter10타이타닉데이터를분석하자
10.1탐색적데이터분석
10.2그날밤타이타닉호에서무슨일이일어났나
10.3데이터의구조를탐색하자
10.4시각화기법을도입하자
LAB10-1학습용데이터의전체인원과생존자,사망자를조사하자
LAB10-2탑승항구별생존자/사망자를알아보자
10.5성에따른생존율,가족수에따른생존율
10.6성과객실등급에따른생존자파악
LAB10-3남성/여성탑승자를파이차트와막대차트로나타내자
10.7객실등급과나이별생존자수
LAB10-4탑승요금의평균을객실등급에따라나타내자
LAB10-5타이타닉호승객들의요금구간과생존자수
10.8정박한항구와남녀비율을피벗테이블로살펴보자
핵심정리
주관식문제
심화문제

Chapter11웹크롤링을통한데이터분석
11.1정보의바다,인터넷에서데이터가져오기
11.2사례분석:한국야구위원회의야구기록
11.3강력한크롤링함수인read_html을알아보자
11.4여러해에걸친경기정보를가져오자
11.5경기정보분석하기
LAB11-1프로야구기록의승수를표로나타내자
LAB11-2프로야구1위팀을출력하자
11.6판다스데이터프레임저장하기
LAB11-3미국프로야구동부리그기록을살펴보자
LAB11-4미국내셔널리그1위팀을출력하자
11.7데이터프레임을파일로저장하는고급기법
11.8텍스트데이터시각화를위한워드클라우드
11.9워드클라우드의세부기능
11.10웹문서를워드클라우드로만들기
LAB11-5위키피디아워드클라우드
핵심정리
주관식문제
심화문제

Chapter12머신러닝과활용사례
12.1인공지능과머신러닝
12.2머신러닝을깊이알아보자
12.3명시적프로그래밍과머신러닝
12.4회귀문제를알아보자
12.5선형회귀문제를풀기위한오차줄이기
12.6선형회귀문제를풀기위한오차함수:평균제곱오차
12.7가장간단한회귀:선형회귀분석
12.8선형회귀로예측하기:키와몸무게는상관관계가있을까
LAB12-1키가비슷해도남,여의몸무게는다를것:다차원선형회귀
LAB12-2주택의실면적과대중교통접근성그리고가격
12.9사례분석:사이킷런의당뇨병예제와학습데이터생성
12.10학습용데이터와테스트용데이터
12.11데이터의특성들중에서중요한특성으로모델을만들자
LAB12-3중요한특성으로이루어진데이터프레임을만들자
LAB12-4체질량지수(bmi)와s5특성으로선형회귀모델을만들자
12.12선형회귀모델의결과를시각화하자
12.13사례분석-선형회귀:기대수명예측하기
12.14각특징들사

출판사 서평

이책의구성

이책은다음과같은세가지중요한내용으로구성하였다.
첫째,독자들로하여금파이썬을이용한빅데이터분석의기초부터고급기법까지를체계적으로익힐수있도록하였다.이책은빅데이터분석을처음다루는독자부터경험이있는독자까지모두가자신의수준에맞게학습할수있도록기초개념부터실전활용까지폭넓은내용을다루고있다.
둘째,다양한예제와실제빅데이터분석사례를통해실무적용능력을키울수있다.이론만으로는이해하기어려운내용을다양한실제사례를살펴보는방법으로독자들이현실세계의문제를해결할수있는능력을기를수있도록돕는다.
셋째,최신언어인공지능을활용한코딩기법으로소개하여빅데이터분석의한계를뛰어넘을수있는방법을제시한다.빠르게발전하는인공지능기술은빅데이터분석의새로운지평을열고있으며,이책에서는그러한최신기술을실제로적용할수있는실용적인방법을설명한다.

이책의특징

ㆍ빅데이터분석에입문하는독자들을위한친절하고상세한설명과많은예시그림이있다.
ㆍ각장은핵심주제에맞는짧은절로나뉘어져있어간결하게핵심을파악할수있다.
ㆍ데이터시각화를위한맷플롯립과시본라이브러리를쉽게익힐수있도록하였다.
ㆍ기계학습과인공지능분야의기초를독자들이쉽게이해할수있도록하였다.
ㆍ데이터정제를위한다양한방법을소개하며,정규표현식을이용하여텍스트데이터를처리하는방법을다루었다.
ㆍ데이터분석을위한고급도구로생성형인공지능을다루는방법을소개한다.
ㆍChatGPT와구글코랩의생성형인공지능을통해문제를해결하는방법을소개한다.
ㆍ웹문서를크롤링하고정제하는방법을다룬다.
ㆍ독자들이이해한내용을스스로연습하고확인해볼수있는많은LAB과도전문제들을수록하였다.
ㆍ핵심정리를통해서각장의내용을정리하고난후,주관식문제와심화문제를통해스스로문제해결을할수있는능력을향상시키도록하였다.