파이썬을 활용한 데이터 길들이기 (데이터 전처리 효율화 전략)

파이썬을 활용한 데이터 길들이기 (데이터 전처리 효율화 전략)

$33.00
Description
미가공된 데이터를 수집하고, 복사하고, 스프레드시트에 붙여 넣어 쓸모 있는 형태로 정리하는 일은 데이터 분석 과정에서 꼭 필요하지만 가장 지루한 일이다. 매번 거쳐야 하는 이 수작업을 더 효율적으로, 더 똑똑하게 할 수는 없을까? 이에 대한 답을 『파이썬을 활용한 데이터 길들이기』에는 데이터 수집, 정제, 가공과 같은 반복적인 전처리 과정을 파이썬 프로그래밍을 통해 효과적으로 작업하는 방법이 담겨 있다. 이 책은 일반적인 데이터 분석 프로젝트의 흐름을 따라 단계별로 구성되어 있다. 연구 문제를 만들어 내는 것부터 시작해 데이터를 수집, 정리, 분석 및 표시하는 방법을 배우고, 데이터 처리 프로세스를 자동화하는 스크립트를 작성해본다. 이를 통해 예전에는 너무 지저분하거나 방대하여 접근이 어렵고 귀찮다고 생각했던 데이터에서 보다 편리하게 정보를 모을 수 있을 것이다. 매번 되풀이되는 데이터 분석 초기 단계를 좀 더 효율적으로 작업하고 싶었던 독자라면 이 책을 통해 데이터 분석 능력을 한 단계 업그레이드할 수 있을 것이다.
저자

재클린카질

저자재클린카질은인간행동과개방형데이터에열정적인데이터과학자이자소프트웨어개발자이다.파이썬과데이터과학수업을가르치고있으며,전직대통령혁신펠로우(PresidentialInnovationFellows)이자정부기술조직인18F의공동창립자이다.그전에는워싱턴포스트에서데이터저널리스트로일했다.

목차

1장파이썬소개
__왜파이썬인가?
__파이썬시작하기
____파이썬버전선택하기
____컴퓨터에파이썬설치하기
____파이썬실행테스트하기
____pip설치하기
____코드에디터설치하기
____선택사항:IPython설치하기
__요약

2장파이썬기초
__기본적인데이터유형
____문자열
____정수와실수
__데이터컨테이너
____변수
____리스트
____딕셔너리
__각데이터유형으로무엇을할수있나?
____문자열메서드:문자열이할수있는것들
____수치형(numerical)메서드:숫자가할수있는것들
____리스트메서드:리스트가할수있는것들
____딕셔너리메서드:딕셔너리가할수있는것들
__유용한도구:type,dir그리고help
____type
____dir
____help
__모두종합하기
__이모든것이무엇을의미하는가?
__요약

3장기계가읽을수있는데이터
__CSV데이터
____CSV데이터불러오기
____파일에코드저장하기;명령프롬프트에서실행하기
__JSON데이터
____JSON데이터불러오기
__XML데이터
____XML데이터불러오기
__요약

4장엑셀파일다루기
__파이썬패키지설치하기
__엑셀파일파싱하기
__파싱시작하기
__요약

5장파이썬에서의PDF와문제해결
__PDF사용을자제하라!
__PDF파싱에대한프로그램적인접근
____slate를사용하여열고읽기
____PDF를텍스트로변환하기
__pdfminer를사용해PDF파싱하기
__문제해결방법배우기
____예제:표추출사용하기,다른라이브러리사용하기
____예제:수동으로데이터클리닝하기
____예제:다른도구사용하기
__흔치않은파일유형
__요약

6장데이터수집및저장하기
__모든데이터가평등하게창조되지는않았다
__사실확인하기
__가독성,깔끔함그리고데이터의지속성
__데이터를어디에서구할수있을까
____전화걸기
____미정부데이터
____전세계정부및도시오픈데이터
____조직및비정부조직(NGO)데이터
____교육및대학데이터
____의료및과학데이터
____크라우드소싱데이터및API
__사례연구:데이터예시조사
____에볼라사태
____기차안전
____축구선수연봉
____아동노동
__데이터저장하기:언제,왜,어떻게?
__데이터베이스:간단한소개
____관계형데이터베이스:MySQL과PostgreSQL
____비관계형데이터베이스:NoSQL
____파이썬에서로컬데이터베이스설정하기
__언제간단한파일을사용하나
____클라우드저장과파이썬
____로컬저장과파이썬
__대안적인데이터저장방법
__요약

7장데이터클리닝하기:조사,매칭그리고서식화
__왜데이터를클리닝하는가?
__데이터클리닝기초
____데이터클리닝을위한값찾기
____데이터서식화하기
____이상치와불량데이터찾기
____중복기록찾기
____퍼지매칭
____정규식매칭
____중복기록처리하기
__요약

8장데이터클리닝하기:표준화와스크립트
__데이터정규화및표준화
__데이터저장하기
__프로젝트에적절한데이터클리닝방식결정하기
__클리닝스크립트만들기
__새데이터테스트하기
__요약

9장데이터탐색과분석
__데이터탐색하기
____데이터불러오기
____표함수탐색하기
____다수의데이터세트결합하기
____상관관계판별하기
____이상치판별하기
____그룹화하기
____추가탐색하기
__데이터분석하기
____데이터를분리하고집중하기
____데이터가무엇을말하고있나?
____결론도출하기
____결론문서화하기
__요약

10장데이터표현하기
__스토리텔링의함정을방지하기
____스토리를어떻게전달할것인가?
____청중을알라
__데이터시각화하기
____차트
____시간관련데이터
____지도
____인터랙티브
____단어
____이미지,비디오,일러스트
__프레젠테이션도구
__데이터게재하기
____가능한사이트사용하기
____오픈소스플랫폼:새로운사이트만들기
____Jupyter(기존IPythonNotebooks)
__요약

11장웹스크래핑:웹에서데이터를획득하고저장하기
__스크래핑대상과방법
__웹페이지분석하기
____요소검사:마크업구조
____Network/Timeline탭:페이지로드현황보기
____콘솔탭:자바스크립트와상호작용하기
____페이지심층분석
__페이지가져오기:페이지요청방법
__뷰티풀수프를사용하여웹페이지읽어들이기
__LXML로웹페이지읽어들이기
____XPath사례
__요약

12장고급웹스크래핑:스크린스크래퍼와스파이더
__브라우저기반파싱
____셀레니움(Selenium)으로하는스크린리딩
____Ghost.Py로스크린리딩하기
__웹스파이더링
____Scrapy를이용한스파이더구축
____Scrapy로웹사이트전체를크롤링하기
__네트워크:인터넷의작동원리와스크립트가망가지는이유
__변화하는인터넷(또는당신의스크립트가망가지는이유)
__몇가지주의사항
__요약

13장API
__API에서제공하는기능들
____RESTAPIvs.스트리밍API
____요청제한
____데이터볼륨계층
____API키와토큰
__RESTAPI로부터간단한데이터받아오기
__트위터RESTAPI를사용한고급데이터수집
__트위터스트리밍API를통한고급데이터수집
__요약

14장자동화와규모확장
__왜자동화를해야할까?
__자동화단계
__무엇이잘못될수있는가?
__자동화수행위치
__자동화를위한특별한도구들
____로컬파일과인자값(argv),그리고설정파일사용하기
____데이터처리를위해클라우드사용하기
____병렬프로세싱사용하기
____분산프로세싱사용하기
__단순자동화
____크론잡(CronJob)
____웹인터페이스
____주피터노트북(JupyterNotebooks)
__대규모자동화
____셀러리(Celery):큐기반자동화
____Ansible을이용한운영자동화
__자동화모니터링하기
____파이썬으로로깅(logging)하기
____자동화된메시지보내기
____파일업로드및기타보고방법
____로깅및모니터링서비스
__완벽한시스템은없다
__요약

15장결론
__데이터랭글러의의무
__데이터랭글링을넘어
____더나은데이터분석가가되기
____더나은개발자가되기
____더나은시각적스토리텔러가되기
____더나은시스템아키텍트가되기
__이젠무엇을할까?

부록A프로그래밍언어비교
부록B초보자를위한파이썬참고자료
부록C커맨드라인배우기
부록D파이썬고급설정
부록E파이썬주의사항
부록FIPython도움말
부록G아마존웹서비스이용하기