R로 마스터하는 머신 러닝 (업무에 활용할 수 있는 선형모델에서 딥러닝까지 | 2 판)

R로 마스터하는 머신 러닝 (업무에 활용할 수 있는 선형모델에서 딥러닝까지 | 2 판)

$37.19
Description
통계 계산과 그래픽에 특화된 언어인 R을 사용해 머신 러닝을 배우는데 필요한 여러 통계적 기법을 실제 사례에 적용하며 설명한다. 복잡한 수식이나 전문 프로그래밍 기법을 사용하지 않으면서, 선형 회귀에서부터 분류 문제나 딥러닝, 추천 시스템, 군집화, 시계열 분석, 텍스트 마이닝까지 머신 러닝의 거의 전 영역에 대해 실제 데이터를 이용해 간결한 R 코드로 명확하게 설명한다. 기초 통계와 프로그래밍을 조금 할 줄 안다면 더욱 더 이해하기 쉬울 것이다.

★ 이 책에서 다루는 내용 ★

■ 실제 업계에서 머신 러닝 도구를 적용하는 방법
■ R을 사용해 데이터를 분석하기 전에 효과적으로 준비하는 작업
■ 데이터를 효과적으로 시각화하는 방법
■ 분석을 위해 학습용 데이터 세트와 테스트용 데이터 세트를 만드는 이유와 방법에 대한 이해
■ 가장 기본적인 머신 러닝 방법인 선형 회귀와 로지스틱 회귀
■ 서포트 벡터 머신 같은 심화 머신 러닝 방법 이해
■ 아마존 클라우드 서비스에서 R 사용하기

★ 이 책의 대상 독자 ★

데이터 과학자, 데이터 분석가, R을 이용해 머신 러닝을 하는, 실무 지식이 있는 사람들 대상으로 한다. 갖고 있는 기술을 한 단계 더 끌어올려 이 분야에서 전문가가 되고 싶은 사람을 위한 책이다.
저자

코리레즈마이스터

10년넘게정량분석에관련된일을해왔으며,현재금융계에서정량분석관리자로서마케팅과통제모형을만드는일을하고있다.일라이릴리(EliLillyandCompany)에서16년간일하면서영업과시장분석,린식스시그마(LeanSixSigma),시장분석,새제품예측등의일을했다.미국육군에서복무했으며,2009년에는이라크바그다드에서2만9,000명규모의이라크원유경찰의전략고문으로일하면서이라크가원유관련산업시설들을안전하게보호하는데필요한장비를공급했다.비행기애호가로서노스다코다대학(UniversityofNorthDakoda)에서항공관리학으로학사학위를받았고,상용헬리콥터자격증을갖고있다.

목차

1장.성공을위한과정

__CRISP-DM모형화기법
__비즈니스이해
____비즈니스의목적을확인하는것
____현재의상황판단
____분석적목표의결정
____프로젝트의진행계획을만드는것
__데이터이해
__데이터준비
__모형화
__평가적용알고리즘순서도
__요약

2장.선형회귀-머신러닝의기본기

__단변량선형회귀
____비즈니스이해하기
__다변량선형회귀
____비즈니스이해하기
____데이터의이해와준비과정
____모형화와평가
__선형모형에서다른고려사항
____질적피처
____상호작용항
__요약

3장.로지스틱회귀와판별분석

__분류방법및선형회귀
__로지스틱회귀
____비즈니스이해하기
____데이터의이해와준비과정
____모형화와평가
________로지스틱회귀모형
________교차검증을포함한로지스틱회귀
__판별분석의개요
____판별분석의적용
__다변량적응회귀스플라인(MARS)
모__형선택
__요약

4장.선형모형에서고급피처선택

__규제화(regularization)란?
____능형회귀분석
____LASSO
____일래스틱넷
__비즈니스사례
____비즈니스이해하기
____데이터의이해와준비과정
__모형화와평가..
____최량부분집합
____능형회귀분석
____LASSO
____일래스틱넷
____glmnet을사용한교차검증
__모형선택
__규제화와분류
____로지스틱회귀의예
__요약

5장.다른분류기법들-K-최근접이웃법과서포트벡터머신

__K-최근접이웃법
__서포트벡터머신
__비즈니스사례
____비즈니스이해하기
____데이터의이해와준비과정
____모형화와평가
________최근접이웃(KNN)모형화
________서포트벡터머신모형화.
____모형선택
__서포트벡터머신에서의피처선택
__요약

6장.분류트리와회귀트리

__개괄적인방법
____회귀트리
____분류트리
____랜덤포레스트(무작위의숲)
____그레이디언트부스트(경사부양기법)
__비즈니스사례
____모형화및평가
________회귀트리
________분류트리
________랜덤포레스트회귀분석(randomforestregression)
________랜덤포레스트분류
________익스트림그레디언트부스트기법-분류
____모형선정.
____랜덤포레스트를사용한피처선택
__요약

7장.신경망과딥러닝

__신경망소개
__딥러닝,간단히살펴보기
____딥러닝을위한자료와심화기법
__비즈니스의이해
__데이터의이해와준비과정
__모형화와평가
__딥러닝예제
____H2O의배경
____데이터를H2O에업로드하기
____훈련및테스트데이터세트생성
____모형화
__요약

8장.군집화분석

__계층적군집화
____거리계산
__K-평균군집화
__가워와중간점구역분할
____가워비유사성계수
____중간점구역분할군집화(PAM)
__랜덤포레스트
__비즈니스이해하기
__데이터이해와준비과정
__모형화와평가
____계층적군집화
__K-평균군집화
____가워와중간점구역분할
____랜덤포레스트와중간점구역분할
__요약

9장.주성분분석

__주성분의개요
____회전
__비즈니스이해하기
____데이터의이해와준비과정
__모형화와평가
____성분추출
____직각회전과해석
____성분으로부터요인점수생성
____회귀분석
__요약

10장.장바구니분석,추천엔진과순차적분석

__장바구니분석의개요
__비즈니스이해하기
__데이터의이해와준비과정
__모형화와평가
__추천엔진의개요
____사용자기반협업필터링
____아이템기반협업필터링
____특이값분해와주성분분석
__비즈니스이해와추천
__데이터의이해와준비과정과추천
__모형화와평가그리고추천하기
__순차적데이터분석
____순차적데이터분석의적용
__요약

11장.앙상블생성과다중클래스분류

__앙상블
__비즈니스와데이터이해하기
__모형화와평가그리고선택
__비즈니스와데이터이해하기
__모형평가와선택
____랜덤포레스트
____능형회귀분석
__MLR에서의앙상블
__요약

12장.시계열자료와인과관계

__단변량시계열분석
____그랜저인과관계이해하기
__비지니스이해하기
____데이터의이해와준비과정
__모형화와평가
____단변량시계열예측
____인과관계의검사
________선형회귀
________벡터자기회귀모형(Vectorautoregression)
__요약

13장.텍스트마이닝

__텍스트마이닝프레임워크와기법
__주제(topic)모형
____그밖의정량분석기법
__비즈니스이해
____데이터의이해와준비
__모형화와평가
____단어빈도와주제모형
____또다른양적분석기법
__요약

14장.클라우드에서R사용하기

__아마존웹서비스계정생성하기
____가상머신실행
____RStudio시작하기
__요약

부록.AR의기본

__R을실행하기
__R사용하기
__데이터프레임과행렬
__요약통계내기
__패키지를설치하고로드하기
__dplyr패키지를이용해데이터다루기
__요약

부록B.자료출처

출판사 서평

★2판에추가된내용★

1장,‘성공을위한과정’에서는순서도상의오타를정정하고새로운방법론을추가했다.
2장,‘선형회귀-머신러닝의기본기술’에서는코드를개선하고좀더나은도표를넣었다.이를제외하면초판과가까운편이다.
3장,‘로지스틱회귀와판별분석’에서는코드를개선하고정리했다.좋아하는기법인다변량적응회귀스프라인(multivariateadaptiveregressionspline)을추가했는데,잘동작하고비선형데이터를다룰수있으며사용하기도쉽다.이를기준모형으로사용해다른"도전자"모형들이이보다더성능이좋은지살펴본다.
4장,‘선형모형에서고급피처선택’에서는회귀뿐만아니라분류문제도다룬다.
5장,‘다른분류기법들-K-최근접이웃법과서포트벡터머신’에서는코드를정리했다.
6장,‘분류트리와회귀트리’에서는XG부스트(XGBoost)패키지가제공하는매우좋은기법을사용하는것과피처를선택할때랜덤포레스트(randomforest)기법을사용을추가했다.
7장,‘신경망과딥러닝’에서는딥러닝방법에관한최신정보를넣었고,하이퍼파라미터(hyperparameter)검색을포함해H2O패키지에관련된코드를개선했다.
8장,‘군집화분석’에서는랜덤포레스트를이용해비지도학습(unsupervisedlearning)을하는방법을넣었다.
9장,‘주성분분석’에서는다른데이터세트를사용하고,표본외예측(out-of-sampleprediction)을추가했다.
10장,‘장바구니분석,추천엔진과순차적분석’에서는영업분야에서점점더중요해지고있는순차적분석(sequentialanalysis)을추가했다.
11장,‘앙상블생성과다중클래스분류’에서는여러좋은패키지를사용해완전히새롭게썼다.
12장,‘시계열자료와인과관계’에서는몇년간의기후자료를더추가했고,인과관계를검사하는여러방법을보여준다.
13장,‘텍스트마이닝’에서는데이터를추가하고코드를개선했다.
14장,‘클라우드에서R사용하기’에서는클라우드에서R을사용하는법을쉽고빠르게배울수있다.
부록A.‘R의기본’에서는데이터를다루는방법을추가했다.
부록B.‘자료출처’에서는자료출처와참고자료의목록을작성했다.

옮긴이의말

21세기,소위“빅데이터시대”를맞아가장주목을받는산업분야가정보산업분야라는사실에는이견이없을듯하다.이제는이전시대와비교해데이터의수집이매우싸고쉬워졌고,점점더강력하고편리해지는컴퓨팅환경과이미개발된다양한분석도구들을이용하면,누구나수많은데이터에서의미있는정보를추출가공해각종의사결정과예측에활용할수있게되었다.
이책은비즈니스현장에서오랫동안데이터분석가및강사로활약해온저자의경험이농축돼,체계적으로독자를데이터분석의세계로인도하고있다.특히1장에서CRISP-DM모형화기법을소개하고,이를실제로이후의모든장에서순차적으로반복해전개하면서독자를자연스럽게문제해결절차에익숙해지도록이끄는것이다른교재와구별되는큰장점이라하겠다.이책의번역을하게됐을때,기본적인선형회귀분석으로시작해최신분석기법들까지,폭넓은활용도를염두에두고균형있게선별된주제를다루고있다는점이눈에띄게좋았다.시작부터끝까지,지나치게수학적이고통계학적이론은지양하면서도간략한모형소개를통해실용적인측면을강조하고,배경이되는중요한가정들과아이디어는빼놓지않고설명하고있다.겉보기에현란하고유행하는고급기법이늘좋은것이아니라,당면과제에적합하고도간결한모형을잘선택하는것이더욱중요하다는사실또한적절한예제를통해보여주고있다.
분석언어로R을채택하고있다는점또한큰장점으로들수있겠다.고전적인머신러닝의대부분은통계모형에서왔다고해도과언이아니며,최근에독자적으로발전했다고하는머신러닝모형도데이터를다루는것은동일한만큼,통계학과여전히밀접한관계속에서개발되고있다.R언어가개발초기부터그핵심사용자들이통계전문가로구성돼있다는점은머신러닝을위한언어로서도다른언어에비해큰장점으로작용한다.요즘은대규모데이터의수집이워낙쉬워져,흔히간과되는부분이있는데결국은데이터자체에대한이해가가장중요하다는점이다.본래R언어는통계분석을위해학계및교육현장에서의자유로운사용과투명한개발을위해,통계학자들을중심으로오픈소스로공동개발되고무료로배포되고있다.최근에는데이터과학자들이R이용자커뮤니티에대거참여하고있으며,학계를벗어나다양한산업분야에서대규모의복잡한문제해결에이르기까지,다양한인터페이스개발을통해활용범위가매우넓어졌다.또한세련된R전용통합개발환경인RStudio의눈부신발전으로인해,매우효율적인데이터사전처리와모형화와프로그래밍및실행,강력한그래프기능과마크업기능을이용해실시간으로전문적이고도세련되고아름다운프리젠테이션을손쉽게생성해온/오프라인으로공유할수있게됐다.
빅데이터시대의큰특징이자문제점은,이른바“일단수집하고,질문은차후에!(Collectfirst,askquestionlater!)”라고하는마케팅분석의흐름으로요약될수있겠다.이는데이터측정과수집이자동화돼가는현재,불가피한상황이라할수있는데,데이터를잘제어된환경에서측정해모으는것이아니라,수집한경로와상관없이이미수집된데이터를상대로정보를추출하고분석해그결과를바탕으로추론하려고한다.그래서이상황자체가일으키는문제가큰도전과제가되고있다.이는수집한데이터에맹목적으로모형을활용했을경우에는“쓰레기입력,쓰레기출력(Garbagein,garbageout)”과같은결과를초래할수있기때문이다.우리가다루는분석도구가강력하고그결과의활용이즉각적인만큼,사용하는모형과기법이내놓을결과의해석에대한이해,이른바통계적지식과문제를깊고넓게볼수있는혜안,균형잡힌판단력은데이터로넘치는시대를살아가는분석가에게필수적으로요구되는자질이다.편향된입력데이터로인한결과의오류가미칠사회적영향이광범위하고심각할수있다는사실또한잊어서는안되겠다.

-류성희(아이오와대학통계학박사과정)

프로그래머를직업을갖는다는것은계속해서새로운것을배우고익혀야한다는것을의미한다.처음프로그래밍을배우기시작했던1983년은얇은BASIC책한권이배워야할전부였다.하지만언어를배우는것은시작에불과했고프로그래밍은수많은지식과생각의결과를엮는수단에지나지않는다는것을곧깨닫게됐다.

학교에서프로그래밍을가르치던전산실은시험답안지를데이터로만들어채점과점수를기록하고데이터를정렬해학생들의성적을출력하는소리로가득차곤했다.컴퓨터는성적처리하는기계였고필요한지식은등수를정하기위해성적을정렬하는정렬알고리즘이면됐다.하지만세상은빠르게바뀌어수십장씩손으로쓰던리포트를워드프로세서로입력한후에프린터로출력하게됐고공학용계산기로작성하던실험데이터처리는엑셀이없으면좋은점수를받을수없는시대가돼버렸다.

그런시절이었던1993년졸업논문을쓰겠다고주제를잡은것이한창학계에서관심을끌고있던신경망이었다.요즘머신러닝중에가장관심을받고있는딥러닝의가장간단한모형이라할수있다.3개층의단순한모형이었지만이를이용해수요예측을해보자는목표를잡고는무작정달려들었다.무식하면용감하다는말이맞다.학습에사용할데이터를도서관에서찾아수집하고수십시간씩신경망에서학습시켰지만원하는결과는나오지않았다.한학기통계학수업만으로는어떤식으로데이터를처리해야할지알수없었기때문이다.결국결과와상관없을것같은데이터를넣고빼기를반복하면서의미있는결과라고생각되는것이나올때까지수십개의데이터열과신경망의가중치값을만지작거렸다.그때뼈저리게느낀것이내게데이터를제대로다룰수있는체계적인지식이없다는것이었다.프로그래밍으로뭐든지할수있다는생각만으로달려들었다가무기력하게맨땅에머리를들이받고있다는생각에좌절감을느끼면서논문을썼다.

그런데그실험을한지20년도넘은시점에서갑자기신경망에대한이야기가인터넷과SNS에서폭발적으로쏟아져나오기시작했다.처음에는이미지인식률개선정도여서대수롭지않게생각했지만순식간에적용범위를넓혀이제신경망아니딥러닝이라는이름을가지고머신러닝과같이테크뉴스의일부분에항상자리를차지해버렸다.너무나도갑작스런복귀였고또다른두려움의부활이었다.그동안통계학이나데이터처리에대한공부를하지않은것은아니지만머신러닝을공부하려고하니그동안공부했던것은별로도움이되지않는것같았다.관련서적을읽어보아도이해할수없는수식에금방부딪혔고체계화된지식없이데이터를다루려고한다는불안감이마음속에서떠나지않았다.

그런상황에서이책의번역을하게되었다.지금생각하면내가간절히원했던책이었다.머신러닝의전반적인영역을다루면서도깊은수학적접근은거의하지않고간단한설명만으로필요한부분을전달하고있다.통계적인지식을상당히요구하긴하지만그또한과하지않다.저자의설명이부족하거나배경설명이필요하다고생각되는내용은페이지하단의주석으로보완했다.번역을하면서흩어져있는지식이하나로연결됐고저자의의도를파악하고오류를잡아가면서흐릿했던생각이더욱더명확해진것을느낄수있었다.그렇게된것은그만큼이책의구성이뛰어나기때문이라생각한다.

4명의역자의용어를통일하고각기다른스타일의글을하나로다듬는과정이쉽지않았음을고백한다.한국통계학회용어집이나수학학회용어집을참고했지만의미에맞는용어를고르는것에무척어려움을겪었다.통일된용어도없고번역된용어도다들제각각이었기때문이다.용어선정에무척고민을많이했음에도어색하고의미에맞지않은용어가있다면전적으로옮긴이의잘못이다.그런용어가있다면꼭알려줬으면한다.

93년도논문을쓰고나서일년뒤에수요예측결과가궁금해서자료를찾아본적이있다.지금생각하면부끄럽게도테스트해야할데이터조차학습데이터에포함시켰기때문에예측한데이터가얼마나정확한지알수없었다.그런데놀랍게도예측치가실제수요데이터와거의일치했다.논문을쓸때만해도터무니없는예측치라생각했었던것이말이다.그래서좀더제대로알았다면더좋았겠다는생각을계속갖고살아왔다.이책을읽는분들은그런경험은겪지않을것이라확신한다.

김종원(엔씨소프트)