딥러닝 데이터 전처리 입문 (파이썬과 R로 배우는 데이터 다루기)

딥러닝 데이터 전처리 입문 (파이썬과 R로 배우는 데이터 다루기)

$20.74
Description
실제 데이터 분석에 가장 중요한 기초 데이터 전처리를 다룬다. 데이터 전처리 과정은 머신 러닝을 통해 만든 모델의 성능을 크게 좌우한다. 데이터 분석에 입문한다면 데이터 전처리를 위한 데이터 전처리 개념과 사용 도구, 주요 파일 형식, 정규 표현식 등 꼭 알아야 할 내용을 실습을 통해 쉽게 익힐 수 있다.
저자

앨런비소첵

저자앨런비소첵은코네티컷주뉴헤이븐에서활동하고있는프리랜서웹개발자이자데이터분석가며,업무외적으로머신러닝과인공지능에관심이많다.

지식을가르치고공유하기를즐긴다.유다시티(Udacity)의데이터분석나노학위(Nanodegree)프로그램을수료한후,유다시티에서수개월간포럼멘토및프로젝트검수자로활동하면서데이터분석프로젝트를수행하는학생들에게도움을줬다.learntoprogram.tv에기술자료를기고하기도한다.

목차

1장.데이터프로그래밍
데이터처리의이해
데이터의수집과읽어오기
데이터정리
데이터형성및구조화
데이터저장
데이터처리도구
파이썬
R
요약

2장.파이썬프로그래밍소개
외부리소스
이번장살펴보기
설치요구사항
다른학습리소스
파이썬2와파이썬3의차이점
파이썬에서프로그램실행
텍스트편집기를사용해프로그램작성및관리
터미널을사용해프로그램실행
동작하지않면어떻게해야할까?
데이터유형,변수,파이썬셸
숫자:정수와실수
문자열
부울데이터형식
print함수
변수
배열(파이썬에서의리스트)
사전
복합문
복합문문법과들여쓰기수준
for문과이터러블
if문
함수
프로그램에서주석달기
프로그래머리소스
공식문서
온라인포럼과메일링리스트
요약

3장.데이터입력,탐색,수정:1부
외부리소스
이번장살펴보기
설치요구사항
데이터
파일시스템설정
기본데이터처리작업흐름소개
JSON파일형식소개
파이썬의파일I/O를이용한파일열기와닫기
open함수와파일객체
파일구조:데이터저장을위한좋은방법
파일열기
파일내용읽기
파이썬모듈
json모듈을이용한JSON파일파싱
데이터파일의내용탐색
데이터의주요내용추출
데이터상의모든변수출력
데이터셋수정
원본데이터셋에서데이터변수추출
수정된데이터를새파일에기록
터미널에서입출력파일명지정
터미널에서파일명지정
요약

4장.데이터입력,탐색,수정:2부
이번장살펴보기
파일시스템설정
데이터
pandas설치
CSV형식이해
csv모듈소개
CSV데이터를읽고처리하기위해csv모듈사용
CSV데이터기록을위한csv모듈사용
데이터를읽고처리하기위해pandas모듈사용
2011년총도로길이다시계산
비표준CSV인코딩과다이얼렉트처리
XML이해
XML과JSON비교
XML데이터파싱을위한xmletreeElementTree모듈사용
Xpath
요약

5장.텍스트데이터처리:정규표현식소개
이번장살펴보기
데이터
파일구조설정
패턴인식의필요성
정규표현식소개
정규표현식작성
특수문자
공백문자탐색
시작문자탐색
종료문자탐색
문자또는숫자의범위탐색
여러패턴의탐색
하나의문자가아닌문자열시퀀스탐색
패턴결합
문자열로부터패턴추출
정규표현식의split()함수
파이썬정규표현식문서
패턴탐색
패턴정량화
도로명주소를탐색하는정규표현식작성
탐색횟수측정
탐색정확도검증
패턴추출
출력결과파일저장
요약

6장.수치데이터정리:R과RStudio소개
이번장살펴보기

데이터
디렉터리구조
R과Rstudio설치
R과RStudio소개
RStudio연습
R명령어실행
작업디렉터리지정
데이터불러오기
R데이터프레임
R벡터
R데이터프레임인덱싱
R을활용한2001년데이터분석
기본적인이상치탐지및제거
NA값처리
결측치제거
결측치를상수로대체
결측치대체
변수명과내용
요약

7장.dplyr을이용한데이터처리간소화
이번장살펴보기
데이터
파일시스템구성
dplyr및tibble패키지설치
dplyr소개
dplyr시작하기
명령어체인사용
데이터프레임의행필터링
항목별로데이터요약하기
dplyr을이용한코드재작성
요약

8장.웹에서데이터수집하기
이번장살펴보기
파일시스템설정
requests모듈설치
인터넷연결
API소개
API를통해파이썬으로데이터추출하기
결과필터링을위한URL파라미터사용
요약

9장.대용량데이터처리
이번장살펴보기
시스템요구사항
데이터
파일시스템설정
MongoDB설치
시간계획
정리
컴퓨터메모리이해
데이터베이스이해
MongoDB소개
파이썬에서MongoDB사용하기
요약

출판사 서평

★이책에서다루는내용★
■파이썬과R로CSV를읽어데이터의통계량출력하기
■데이터형식과API를활용한데이터추출에필요한프로그래밍구조학습
■데이터정리과정에필요한정규표현식의효과적인사용
■수치데이터분석에필요한도구와패키지탐색
■더나은데이터구조제어방법탐색
■프로그래밍방식을통한데이터의읽기,검사,수정,형태변경
■데이터셋을불러오고정제하고출력하는프로그램작성

★이책의대상독자★
데이터를분석해보고싶은데이터과학자,데이터분석가,통계학자에게유용한책이다.R과파이썬을모두다루기때문에큰도움이될것이다

★이책의구성★
1장.'데이터프로그래밍'에서는데이터처리방법을논의하고이책에서다루는내용을개괄한다.
섹션1.데이터를다루는일반적인프로그래밍방법
2장.'파이썬프로그래밍소개'에서는이책에서가장많이사용하는프로그래밍언어인파이썬을소개한다.
3장.'데이터입력,탐색,수정:1부'에서는데이터를처리하는방법과JSON데이터형식을소개한다.
4장.'데이터입력,탐색,수정:2부'에서는CSV와XML데이터형식을다룬다.
5장.'텍스트데이터처리:정규표현식소개'에서는정규표현식을이용해주소로부터도로명을추출해본다.
섹션2:정형데이터처리
6장.'수치데이터정리:R과RStudio소개'에서는R을소개하고RStudio를이용해수치데이터를정리하는방법을소개한다.
7장.'dplyr을이용한데이터처리간소화'에서는데이터를강력하면서도간단하게다룰수있는R의dplyr패키지를소개한다.
섹션3:고급데이터입출력방법
8장.'웹에서데이터수집하기'에서는파이썬API를이용해웹에서데이터를추출하는방법을다룬다.
9장.'대용량데이터처리'에서는대용량데이터처리시발생할수있는문제점을논의하고MongoDB를이용해대용량데이터를처리해본다.

[옮긴이의말]
알파고이후로제4차산업혁명,인공지능등의키워드와마찬가지로머신러닝이라는용어도많은회사와대중에게더욱친숙해지고있다.하지만많은관심을받고있는머신러닝분야에서데이터전처리의중요성은상대적으로강조되지못하는분위기다.

데이터에맞는머신러닝알고리즘과적절한파라미터를선택하는것만큼데이터전처리과정또한매우중요하다.양질의데이터를통해좋은결과를만들어낼수있으므로,올바른데이터전처리는필수라해도과언이아니다.데이터전처리는꽤노동집약적인작업으로,데이터분석가는전처리작업에많은시간을할애하고있다.

머신러닝알고리즘과도구를소개하는책은다양하지만전처리과정을쉽게접할수있도록소개하는책은드물다.

이책에서는먼저데이터를처리하는방법을알아보고가장널리사용되는파이썬을사용해JSON,CSV,XML파일을처리하는방법을살펴본다.다음으로실무에매우유용한정규표현식에대해알아보고수치데이터분석에유리한R과RStudio에대해서도배운다.또한데이터수집을위한웹크롤링과대용량데이터처리를위한MongoDB에대해서도간단히다룬다.이책을통해머신러닝을위한데이터전처리학습에도움을얻길바란다.

이책이머신러닝에처음입문하는분들에게조금이나마보탬이됐으면하는바람이다