나성호의 R 데이터 분석 입문 (20년 베테랑에게 아파트 실거래 데이터로 실전처럼 배워보자)

나성호의 R 데이터 분석 입문 (20년 베테랑에게 아파트 실거래 데이터로 실전처럼 배워보자)

$20.87
Description
★ 명강사가 알려주는 입문자가 알아야 하는 탄탄한 R 데이터 분석 기본기

저자는 패스트캠퍼스/러닝스픈즈/멀티캠퍼스를 비롯해 유수의 기업에서 데이터 분석 강의를 진행한 명강사입니다. 강의를 하며 1. 수강생은 바쁘다 2. 바쁘다는 이유로 자료 구조를 건너뛰고 무작정 데이터 분석부터 배우면 3. 데이터 분석을 제대로 익히지 못한다는 사실을 알아냈습니다.

그래서 이 책을 준비했습니다. 1. 한 권으로 2. 특히 데이터 분석 핵심인 자료 구조를 자유자재로 다룰 수 있게 중점적으로 설명하고 3. 데이터 분석 전과정을 체험하게 구성했습니다. 단순히 명령어 사용법만 안다고 데이터 분석을 할 수는 없습니다. 실제 현장에서 만나게 되는 다양한 경우에 맞춰 활용하는 방법을 알아야 합니다.

반드시 데이터 분석을 제대로 익히고 싶은 분이라면 17년간 데이터 분석가로, 3년간 강사로 활약한 저자가 제시하는 학습 방법을 따라 책에 담긴 데이터 분석 노하우도 모두 챙겨가기 바랍니다. 잊지 마세요, 자료구조가 핵심이고 먼저입니다.

★ Must Have 시리즈 안내
Must Have 시리즈는 내 것으로 만드는 시간을 드립니다. 명확한 학습 목표와 핵심 정리를 제공하고, 간단명료한 설명과 다양한 그림으로 학습 효과를 극대화합니다. 예제를 제공해 응용력을 키워줍니다. 할 수 있습니다. 포기는 없습니다. 지금 당장 밑줄 긋고 메모하고 타이핑하세요! Must Have가 여러분의 성장을 돕겠습니다.
저자

나성호

삼성화재CRM파트에서직장생활을시작하여현대캐피탈,하나카드,하나금융경영연구소등다양한금융회사에서데이터분석을직접수행하는마케터이자연구원으로근무했습니다.
패스트캠퍼스전임강사로〈R을활용한웹크롤링〉과〈RSchool〉을,멀티캠퍼스에서〈R을활용한데이터분석〉,러닝스푼즈나노디그리과정에서〈R을활용한데이터분석〉을강의했습니다.현재는R과파이썬으로데이터수집(웹크롤링),전처리,시각화,통계분석및머신러닝을주제로여러기업에서강의를하고있습니다.2020년말에박사과정을수료하여졸업을눈앞에두고있습니다.

저역서
● 《효율적인R프로그래밍》공역
● 《포워드2019미래를읽다》공저

목차

00실습환경구축

[1단계]R자료구조:자료구조가핵심이다.잘다뤄야분석이쉽다

01장데이터분석입문
__1.1R기초지식
__1.2생애첫R프로그래밍:HelloWorld
__1.3스크립트창에서코드실행하기
__1.4프로젝트생성하기
__1.5R객체의특징
__1.6R자료구조종류
__학습마무리

02장자료구조:벡터
__2.1R자료형과벡터의특징
__2.2벡터생성
__2.3벡터원소선택
__2.4벡터원소추가
__2.5벡터원소삭제
__2.6벡터원소변경
__2.7벡터형변환
__2.8벡터강제변환
__2.9산술연산자
__2.10비교연산자
__2.11논리연산자
__2.12멤버연산자:%in%
__학습마무리

03장자료구조:리스트093
__3.1리스트특징
__3.2리스트생성
__3.3리스트원소선택
__3.4리스트원소추가
__3.5리스트원소삭제
__3.6리스트원소변경
__학습마무리

04장자료구조:데이터프레임103
__4.1데이터프레임특징
__4.2데이터프레임생성
__4.3데이터프레임원소선택
__4.4데이터프레임원소추가
__4.5데이터프레임원소삭제
__4.6데이터프레임원소변경
__학습마무리

[2단계]R프로그래밍:프로그래밍을알아야효과적으로분석한다

05장조건문
__05조건문
__5.1if문기본구조
__5.3ifelse()함수
__학습마무리

06장반복문
__6.1for문
__6.2while문
__6.3이후코드건너뛰기:next
__6.4반복문탈출하기:break
__학습마무리

07장사용자정의함수
__7.1왜사용자정의함수가필요할까?
__7.2사용자정의함수의기본구조
__7.3사용자정의함수생성
__7.4파일로저장한사용자정의함수재활용
__7.5인수의기본값설정
__학습마무리

08장같은함수반복실행
__8.1벡터를넣어반복실행하는함수:apply()
__8.2for문과비교
__8.3원소를넣어반복실행하는함수:lapply()와sapply()
__8.4FUN에사용자정의함수사용하기
__학습마무리

[3단계]R데이터분석:아파트실거래데이터로실전처럼익히자

09장데이터입출력
__9.1사전지식:tidyverse패키지
__9.2작업경로확인및변경
__9.3엑셀파일입출력
__9.4텍스트파일입출력:csv파일,txt파일
__9.5RDS파일입출력
__9.6RDA파일입출력
__학습마무리

10장오픈API를활용한공공데이터수집과처리
__10.1사전지식:API
__10.2STEP1공공데이터포털오픈API활용하기
__10.3STEP2기술문서읽기
__10.4STEP3데이터가져오기
__10.5STEP4데이터처리하기
__학습마무리

11장데이터프레임전처리
__11.1사전지식:dplyr패키지
__11.2STEP1실습데이터셋준비
__11.3STEP2컬럼선택및삭제
__11.4STEP3컬럼명변경
__11.5STEP4조건에맞는행선택(필터링)
__11.6STEP5인덱스로행선택및삭제
__11.7STEP6컬럼의자료형변환
__11.8STEP7기존컬럼변경및새로운컬럼생성
__11.9STEP8집계함수로데이터요약
__11.10STEP9데이터프레임형태변환
__11.11STEP10오름차순및내림차순정렬
__학습마무리

12장데이터프레임병합
__12.1데이터프레임병합
__12.2STEP1실습데이터셋준비
__12.3STEP2외래키확인및전처리
__12.4STEP3외래키중복여부확인
__12.5STEP4데이터프레임병합실습
__학습마무리

13장기술통계분석
__13.1기술통계량:대푯값,산포,선형관계
__13.2실습데이터셋준비
__13.3대푯값:평균,절사평균,중위수,백분위수,사분위수
__13.4산포:최솟값,최댓값,범위,사분범위,분산,표준편차
__13.5선형관계:공분산,상관계수
__학습마무리

14장데이터시각화:ggplot2패키지
__14.1사전지식:ggplot2패키지
__14.2시각화
__14.3실습데이터셋준비및폰트추가
__14.4히스토그램시각화
__14.5상자수염그림시각화
__14.6막대그래프시각화
__14.7선그래프시각화
__14.8산점도시각화
__학습마무리

출판사 서평

★데이터분석을잘하려면자료구조와프로그래밍의기본을잘알아야합니다.

데이터분석에능숙하고싶습니까?그렇다면자료구조를먼저탄탄히익혀야합니다.데이터분석과정은데이터를다양한형태로바꾸며진행되기때문입니다.그래서이책은먼저자료구조를탄탄히익히고나서R프로그래밍,데이터수집,전처리,기술통계분석,시각화를설명합니다.

엑셀파일,텍스트파일,RDS파일,RDA파일입출력을배웁니다.데이터의분포와시간에따른변화및상관관계등데이터분석과정에유용한5가지시각화그래프(히스토그램,상자수염그림,막대,선,산점도)를소개합니다.국토교통부‘아파트매매가격데이터’와한국감정원‘K-APT아파트단지’정보4천여건을직접수집해활용합니다.

17년간데이터분석가로서,3년간강사로서활동하며깨달은’고급분석가로가기전에이정도는알아야하는내용’을충실히담았습니다.데이터분석가를꿈꾸는대학생과취업준비생은물론데이터분석가로직무전환을바라는직장인이한권으로R입문과데이터분석전반을체험하고익힐수있도록구성했습니다.

[숫자로보는책의특징]

_0아무것도몰라도OK
R을몰라도됩니다.R입문과데이터분석입문과정모두를알려줍니다.

_3단계로익히는R데이터분석
1단계에서R자료구조,2단계에서프로그래밍,3단계에서데이터분석(수집,전처리,기술통계,시각화)을차례대로배웁니다.

_3가지OS별개발환경구축
윈도우,맥OS,리눅스개발환경구성방법을모두제시합니다.

_4가지데이터입출력형식
엑셀파일,텍스트파일,RDS파일,RDA파일입출력을배웁니다.이4가지형식으로입출력을자유자재로할줄알면데이터관리가훨씬수월해집니다.

_5가지데이터시각화그래프학습
데이터의분포와시간에따른변화및상관관계등데이터분석과정에유용한5가지시각화그래프(히스토그램,상자수염그림,막대,선,산점도)를소개합니다.

_4000여건아파트매매데이터
국토교통부‘아파트매매가격데이터’와한국감정원‘K-APT아파트단지’정보4천여건을직접수집해활용합니다.

[대상독자]
-R데이터분석입문자
-데이터를다루는업무관련취업희망자
-데이터분석업무에R을적용하고싶은직장인

[저자와4문4답]
R과데이터분석초보자에게전하고싶은말씀이있으신가요?
아주당연한얘기지만‘세상에공짜는없다’라는말씀을드리고싶습니다.R과파이썬으로데이터분석강의를판매하는일부기관이나업체에서‘R과파이썬데이터분석은쉽다’라는허위광고를수년째하고있습니다.프로그래밍도모르고데이터분석도모르는입문자에게자칫불필요한오해를심어주고있습니다.R과파이썬데이터분석은절대로쉽지않습니다.새로운언어를배워야하기때문에익숙해지려면수개월에서수년이걸립니다.그러다보니프로그래밍과데이터분석에도전했다가내길이아닌가싶어서금세포기하는분이많습니다.
프로그래밍과데이터분석을꾸준하게학습할수있도록스스로동기부여하고환경을조성해야합니다.가장좋은방법은학습자본인이가장좋아하는분야를찾고,그분야의데이터를분석해보는겁니다.예를들어야구를좋아하는사람은야구데이터를분석하고,영화를좋아하는사람은영화데이터를분석하는겁니다.최근주식거래붐이일고있으므로주식데이터를분석하여돈을벌수있는투자전략을수립하고,자동매매프로그래밍에도전하는것도아주좋은동기부여가될것이라고생각합니다.

R이얼마나많이사용되는거죠?
R은프로그래밍언어랭킹에서2020년에8위2021년8월에14위를차지했습니다
(tiobe.com).R은통계학자가통계분석을위해만든언어이므로통계분석에사용합니다.파이썬과함께데이터분석핵심언어로사용되고있습니다.

R이데이터분석에많이사용되는이유가있나요?
R은통계학자가통계분석을목적으로만든프로그래밍언어입니다.그래서통계분석에특화되어있습니다.아울러데이터전처리에유용한dplyr패키지와데이터시각화에강점을갖는ggplot2패키지가있다는장점이있습니다.그리고웹크롤링이라든가Shiny1를활용해대시보드개발도가능합니다.

엑셀,R,파이썬데이터분석의장단점이궁금합니다.
엑셀은사용자친화적인프로그램이라서많은직장인이데이터분석에사용합니다.그런데엑셀은셀마다함수를생성하는방식으로처리해야하므로대용량데이터를다루기에한계가있습니다.고급통계분석도사용하기어렵습니다.하지만R과파이썬으로엑셀의한계를해결할수있습니다.고급통계분석은물론머신러닝과딥러닝,텍스트마이닝까지수행할수있기때문입니다.다만R과파이썬을잘다루려면키보드로프로그래밍하는방법에익숙해질필요가있습니다.

R과파이썬둘중에어떤것을배울것인지고르는기준은저마다다르겠지만,보통프로그래밍언어에익숙한개발자라면파이썬이좋고,프로그래밍언어가처음인비개발자라면R이좋습니다.아무래도인덱스가0부터시작하는파이썬보다는1부터시작하는R이조금더인간다운언어처럼보이기때문일겁니다.

[이책의구성]
이책은먼저자료구조를탄탄히익히고나서R프로그래밍,데이터수집,전처리,기술통계분석,시각화를설명합니다.

_00장실습환경구축

[1단계R자료구조:자료구조가핵심이다.잘다뤄야분석이쉽다]
자료형과자료구조에익숙해집시다.구글링으로발견한코드를자신의데이터에적용할때에러가발생하고,문제를해결하지못하는이유는자료형과자료구조에대한이해가부족하기때문입니다.데이터를담는그릇인자료구조를알아야데이터를제대로다룰수있습니다.

_1장R데이터분석입문

생애첫R프로그램을만들고,코드를실행하고프로젝트를생성하는방법을알아봅니다.R기본구문과객체도알아보며기본을다집니다.무협지무림고수가기초체력부터다진후화려한기술을익히듯이,코딩고수를목표로기초부터제대로익히는시간이될겁니다.

_2장자료구조:벡터
R에서가장기본이되는자료구조인벡터를알아봅시다.벡터는같은자료형을원소로갖는자료구조이며,나중에학습할리스트와데이터프레임의원소로사용됩니다.

_3장자료구조:리스트
R에서광범위하게사용되는자료구조인리스트를알아봅시다.리스트의구조를확인하고,필요한원소만선택하는인덱싱방법에중점을두어학습하기바랍니다.

_4장자료구조:데이터프레임
데이터프레임을학습합니다.R은엑셀문서인xls,xlsx파일이나텍스트문서인csv파일을데이터프레임으로생성합니다.R을이용한데이터분석에서데이터프레임을가장많이다루게됩니다.따라서데이터프레임의원소를선택하는인덱싱방법,원소를추가,삭제,변경하는전처리방법에중점을두어학습하겠습니다.

[2단계R프로그래밍:프로그래밍을알아야효과적으로분석한다]
R프로그래밍에사용하는조건문,반복문,사용자정의함수,같은함수반복실행방법을알아봅니다.낯설고,어렵고,재미없고,지루하지만기초체력이충분해야고급스킬을구사할수있다는믿음으로꾸준하게학습하기바랍니다.

_5장조건문
코드가실행되는흐름을분기하는if문사용법을알아봅시다.

_6장반복문
R프로그래밍에자주사용하는반복문을알아보겠습니다.반복문은어떤코드에서일부의값을바꿔가면서반복하여실행할때사용됩니다.

_7장사용자정의함수
R함수로제공되지않지만분석가자신이자주사용하는함수(사용자정의함수)를직접만드는방법을알아보겠습니다.

_8장같은함수반복실행
같은함수를반복실행할때사용하는apply()함수활용법을알아보겠습니다.

[3단계R데이터분석:아파트실거래데이터로실전처럼익히자]
데이터를수집하고전처리하고시각화해분석하는방법을알아봅시다.엑셀또는CSV파일을읽고R데이터프레임으로생성하고,공공데이터포털에서오픈API로공공데이터를수집하는방법에익숙해지면공공데이터포털에서제공되는모든데이터가다내것이됩니다.데이터프레임을자유자재로다루면업무생산성이높아집니다.5가지그래프까지만들어보면R로데이터를분석하는전과정을마무리합시다.

_9장데이터입출력
엑셀및텍스트파일을R에서불러오고저장하는방법을알아보겠습니다.

_10장오픈API를활용한공공데이터수집과처리
공공데이터포털오픈API를활용한데이터수집방법을알아보겠습니다.

_11장데이터프레임전처리
데이터분석과정에서가장많이사용하는자료구조인데이터프레임을전처리하는방법을알아보겠습니다.

_12장데이터프레임병합
두개이상의데이터프레임을하나로합칠때병합하는방법을알아보겠습니다.

_13장기술통계분석
기술통계(descriptivestatistics)분석을통해데이터의주요특징을빠르게파악합니다.

_14장데이터시각화
ggplot2패키지에서제공하는함수를사용해히스토그램,상자수염그림,막대그래프,선그래프,산점도시각화그래프를그려서데이터의주요특징을시각화합니다.