★데이터분석을잘하려면자료구조와프로그래밍의기본을잘알아야합니다.
데이터분석에능숙하고싶습니까?그렇다면자료구조를먼저탄탄히익혀야합니다.데이터분석과정은데이터를다양한형태로바꾸며진행되기때문입니다.그래서이책은먼저자료구조를탄탄히익히고나서R프로그래밍,데이터수집,전처리,기술통계분석,시각화를설명합니다.
엑셀파일,텍스트파일,RDS파일,RDA파일입출력을배웁니다.데이터의분포와시간에따른변화및상관관계등데이터분석과정에유용한5가지시각화그래프(히스토그램,상자수염그림,막대,선,산점도)를소개합니다.국토교통부‘아파트매매가격데이터’와한국감정원‘K-APT아파트단지’정보4천여건을직접수집해활용합니다.
17년간데이터분석가로서,3년간강사로서활동하며깨달은’고급분석가로가기전에이정도는알아야하는내용’을충실히담았습니다.데이터분석가를꿈꾸는대학생과취업준비생은물론데이터분석가로직무전환을바라는직장인이한권으로R입문과데이터분석전반을체험하고익힐수있도록구성했습니다.
[숫자로보는책의특징]
_0아무것도몰라도OK
R을몰라도됩니다.R입문과데이터분석입문과정모두를알려줍니다.
_3단계로익히는R데이터분석
1단계에서R자료구조,2단계에서프로그래밍,3단계에서데이터분석(수집,전처리,기술통계,시각화)을차례대로배웁니다.
_3가지OS별개발환경구축
윈도우,맥OS,리눅스개발환경구성방법을모두제시합니다.
_4가지데이터입출력형식
엑셀파일,텍스트파일,RDS파일,RDA파일입출력을배웁니다.이4가지형식으로입출력을자유자재로할줄알면데이터관리가훨씬수월해집니다.
_5가지데이터시각화그래프학습
데이터의분포와시간에따른변화및상관관계등데이터분석과정에유용한5가지시각화그래프(히스토그램,상자수염그림,막대,선,산점도)를소개합니다.
_4000여건아파트매매데이터
국토교통부‘아파트매매가격데이터’와한국감정원‘K-APT아파트단지’정보4천여건을직접수집해활용합니다.
[대상독자]
-R데이터분석입문자
-데이터를다루는업무관련취업희망자
-데이터분석업무에R을적용하고싶은직장인
[저자와4문4답]
R과데이터분석초보자에게전하고싶은말씀이있으신가요?
아주당연한얘기지만‘세상에공짜는없다’라는말씀을드리고싶습니다.R과파이썬으로데이터분석강의를판매하는일부기관이나업체에서‘R과파이썬데이터분석은쉽다’라는허위광고를수년째하고있습니다.프로그래밍도모르고데이터분석도모르는입문자에게자칫불필요한오해를심어주고있습니다.R과파이썬데이터분석은절대로쉽지않습니다.새로운언어를배워야하기때문에익숙해지려면수개월에서수년이걸립니다.그러다보니프로그래밍과데이터분석에도전했다가내길이아닌가싶어서금세포기하는분이많습니다.
프로그래밍과데이터분석을꾸준하게학습할수있도록스스로동기부여하고환경을조성해야합니다.가장좋은방법은학습자본인이가장좋아하는분야를찾고,그분야의데이터를분석해보는겁니다.예를들어야구를좋아하는사람은야구데이터를분석하고,영화를좋아하는사람은영화데이터를분석하는겁니다.최근주식거래붐이일고있으므로주식데이터를분석하여돈을벌수있는투자전략을수립하고,자동매매프로그래밍에도전하는것도아주좋은동기부여가될것이라고생각합니다.
R이얼마나많이사용되는거죠?
R은프로그래밍언어랭킹에서2020년에8위2021년8월에14위를차지했습니다
(tiobe.com).R은통계학자가통계분석을위해만든언어이므로통계분석에사용합니다.파이썬과함께데이터분석핵심언어로사용되고있습니다.
R이데이터분석에많이사용되는이유가있나요?
R은통계학자가통계분석을목적으로만든프로그래밍언어입니다.그래서통계분석에특화되어있습니다.아울러데이터전처리에유용한dplyr패키지와데이터시각화에강점을갖는ggplot2패키지가있다는장점이있습니다.그리고웹크롤링이라든가Shiny1를활용해대시보드개발도가능합니다.
엑셀,R,파이썬데이터분석의장단점이궁금합니다.
엑셀은사용자친화적인프로그램이라서많은직장인이데이터분석에사용합니다.그런데엑셀은셀마다함수를생성하는방식으로처리해야하므로대용량데이터를다루기에한계가있습니다.고급통계분석도사용하기어렵습니다.하지만R과파이썬으로엑셀의한계를해결할수있습니다.고급통계분석은물론머신러닝과딥러닝,텍스트마이닝까지수행할수있기때문입니다.다만R과파이썬을잘다루려면키보드로프로그래밍하는방법에익숙해질필요가있습니다.
R과파이썬둘중에어떤것을배울것인지고르는기준은저마다다르겠지만,보통프로그래밍언어에익숙한개발자라면파이썬이좋고,프로그래밍언어가처음인비개발자라면R이좋습니다.아무래도인덱스가0부터시작하는파이썬보다는1부터시작하는R이조금더인간다운언어처럼보이기때문일겁니다.
[이책의구성]
이책은먼저자료구조를탄탄히익히고나서R프로그래밍,데이터수집,전처리,기술통계분석,시각화를설명합니다.
_00장실습환경구축
[1단계R자료구조:자료구조가핵심이다.잘다뤄야분석이쉽다]
자료형과자료구조에익숙해집시다.구글링으로발견한코드를자신의데이터에적용할때에러가발생하고,문제를해결하지못하는이유는자료형과자료구조에대한이해가부족하기때문입니다.데이터를담는그릇인자료구조를알아야데이터를제대로다룰수있습니다.
_1장R데이터분석입문
생애첫R프로그램을만들고,코드를실행하고프로젝트를생성하는방법을알아봅니다.R기본구문과객체도알아보며기본을다집니다.무협지무림고수가기초체력부터다진후화려한기술을익히듯이,코딩고수를목표로기초부터제대로익히는시간이될겁니다.
_2장자료구조:벡터
R에서가장기본이되는자료구조인벡터를알아봅시다.벡터는같은자료형을원소로갖는자료구조이며,나중에학습할리스트와데이터프레임의원소로사용됩니다.
_3장자료구조:리스트
R에서광범위하게사용되는자료구조인리스트를알아봅시다.리스트의구조를확인하고,필요한원소만선택하는인덱싱방법에중점을두어학습하기바랍니다.
_4장자료구조:데이터프레임
데이터프레임을학습합니다.R은엑셀문서인xls,xlsx파일이나텍스트문서인csv파일을데이터프레임으로생성합니다.R을이용한데이터분석에서데이터프레임을가장많이다루게됩니다.따라서데이터프레임의원소를선택하는인덱싱방법,원소를추가,삭제,변경하는전처리방법에중점을두어학습하겠습니다.
[2단계R프로그래밍:프로그래밍을알아야효과적으로분석한다]
R프로그래밍에사용하는조건문,반복문,사용자정의함수,같은함수반복실행방법을알아봅니다.낯설고,어렵고,재미없고,지루하지만기초체력이충분해야고급스킬을구사할수있다는믿음으로꾸준하게학습하기바랍니다.
_5장조건문
코드가실행되는흐름을분기하는if문사용법을알아봅시다.
_6장반복문
R프로그래밍에자주사용하는반복문을알아보겠습니다.반복문은어떤코드에서일부의값을바꿔가면서반복하여실행할때사용됩니다.
_7장사용자정의함수
R함수로제공되지않지만분석가자신이자주사용하는함수(사용자정의함수)를직접만드는방법을알아보겠습니다.
_8장같은함수반복실행
같은함수를반복실행할때사용하는apply()함수활용법을알아보겠습니다.
[3단계R데이터분석:아파트실거래데이터로실전처럼익히자]
데이터를수집하고전처리하고시각화해분석하는방법을알아봅시다.엑셀또는CSV파일을읽고R데이터프레임으로생성하고,공공데이터포털에서오픈API로공공데이터를수집하는방법에익숙해지면공공데이터포털에서제공되는모든데이터가다내것이됩니다.데이터프레임을자유자재로다루면업무생산성이높아집니다.5가지그래프까지만들어보면R로데이터를분석하는전과정을마무리합시다.
_9장데이터입출력
엑셀및텍스트파일을R에서불러오고저장하는방법을알아보겠습니다.
_10장오픈API를활용한공공데이터수집과처리
공공데이터포털오픈API를활용한데이터수집방법을알아보겠습니다.
_11장데이터프레임전처리
데이터분석과정에서가장많이사용하는자료구조인데이터프레임을전처리하는방법을알아보겠습니다.
_12장데이터프레임병합
두개이상의데이터프레임을하나로합칠때병합하는방법을알아보겠습니다.
_13장기술통계분석
기술통계(descriptivestatistics)분석을통해데이터의주요특징을빠르게파악합니다.
_14장데이터시각화
ggplot2패키지에서제공하는함수를사용해히스토그램,상자수염그림,막대그래프,선그래프,산점도시각화그래프를그려서데이터의주요특징을시각화합니다.