R을 활용한 머신러닝 : 데이터 준비부터 모델 조정, 평가, 빅데이터 작업까지 - 에이콘 데이터 과학 시리즈

R을 활용한 머신러닝 : 데이터 준비부터 모델 조정, 평가, 빅데이터 작업까지 - 에이콘 데이터 과학 시리즈

$52.11
저자

브레트란츠

저자:브레트란츠(BrettLantz)

혁신적인데이터방법을사용해인간행동을이해하는데15년이상을보냈다.사회학자출신으로처음에는대학생들의소셜네트워크프로필의대규모데이터베이스를연구하는동안머신러닝에매료됐다.DataCamp강사로,전세계에서머신러닝워크숍에참여했다.스포츠,비디오게임,자율주행차량,외국어학습등다양한주제에대한데이터과학애플리케이션에열중하며이와관련해dataspelunking.com에서블로그를작성하기를원하고있다.



역자:이병욱

서울과학종합대학교AI첨단대학원주임교수

한국과학기술원(KAIST)겸직교수

한국금융연수원겸임교수

인공지능연구원(AIRI)부사장

-금융위원회금융규제혁신회의위원

-금융위원회법령해석심의위원회위원

-금융위원회적극행정위원회위원

-금융위원회디지털자산자문위원

-한국산업기술진흥원(KIAT)‘규제자유특구분과위원회’위원

-과기정통부우정사업본부정보센터네트워크&블록체인자문위원

한국과학기술원(KAIST)전산학과

전)BNP파리바카디프전무

전)삼성생명마케팅개발수석

전)보험넷Founder&CEO

전)LG전자연구원

서울과학종합대학원AI전략경영주임교수와카이스트겸직교수그리고한국금융연수원겸임교수를맡고있으며,인공지능연구원(AIRI)의부사장으로도재직중이다.한국과학기술원KAIST전산학과계산이론연구실에서공부했으며공학을전공한금융전문가로,세계최초의핸드헬드-PC(Handheld-PC)개발에참여해한글윈도우CE1.0과2.0을미국마이크로소프트본사에서공동개발했다.1999년에는전보험사보험료실시간비교서비스를제공하는핀테크전문회사㈜보험넷을창업했고이후삼성생명을비롯한생명보험사및손해보험사에서CMO(마케팅총괄상무),CSMO(영업및마케팅총괄전무)등을역임하면서혁신적인상품과서비스를개발,총괄했다.

세계최초로파생상품인ELS를기초자산으로한변액보험을개발해단일보험상품으로5천억원이상판매되는돌풍을일으켰고,매일분산투자하는일분산투자(dailyAveraging)변액보험을세계최초로개발해상품판매독점권을획득했다.인공지능연구원에서머신러닝기반의금융솔루션개발에관련된다양한활동을하고있으며금융위원회,금융정보분석원등에다양한자문을하고있다.

저서로는『비트코인과블록체인,탐욕이삼켜버린기술』(에이콘,2018)과대한민국학술원이2019교육부우수학술도서로선정한『블록체인해설서』(에이콘,2019)와2022년문체부의세종도서로선정된『돈의정체』(에이콘,2019),한국금융연수원의핀테크전문교재인『헬로,핀테크!』(공저,2020),『헬로,핀테크!-인공지능편』(2021)이있다.

목차


01장.머신러닝소개
__머신러닝의기원
__머신러닝의사용과남용
____머신러닝성공사례
____머신러닝의한계
____머신러닝의윤리
__기계의학습방법
____데이터저장소
____추상화
____일반화
____평가
__실전머신러닝
____입력데이터타입
____머신러닝알고리듬형식
____입력데이터와알고리듬매칭
__R을이용한머신러닝
____R패키지설치
____패키지로딩과언로딩
____RStudio설치
____왜R인가왜지금R인가?
__요약

02장.데이터의관리와이해
__R데이터구조
____벡터
____팩터
____리스트
____데이터프레임
____행렬과배열
__R을이용한데이터관리
____데이터구조저장,로드,제거
____CSV파일에서데이터가져오기와저장하기
____Rstudio를이용한일반적데이터세트형식가져오기
__데이터탐색과이해
____데이터구조탐색
____수치변수탐색
______중심경향측정:평균과중앙값
______퍼짐측정:사분위수와다섯숫자요약
______수치변수시각화:상자그림
______수치변수시각화:히스토그램
______수치데이터의이해:균등분포와정규분포
______퍼짐측정:분산과표준편차
____범주특징탐색
______중심경향측정:최빈값
____특징간의관계탐색
______관계시각화:산포도
______관계관찰:이원교차표
__요약

03장.게으른학습:최근접이웃을사용한분류
__최근접이웃분류의이해
____k-NN알고리듬
______거리로유사도측정
______적절한k선택
______k-NN사용을위한데이터준비
____k-NN알고리듬이게으른이유
__예제:k-NN알고리듬으로유방암진단
____단계1:데이터수집
____단계2:데이터탐색과준비
______변환:수치데이터정규화
______데이터준비:훈련및테스트데이터세트생성
____단계3:데이터로모델훈련
____단계4:모델성능평가
____단계5:모델성능개선
______변환:z-점수표준화
______K의대체값테스트
__요약

04장.확률적학습:나이브베이즈분류
__나이브베이즈이해
____베이지안기법의기본개념
______확률의이해
______결합확률의이해
______베이즈정리를이용한조건부확률계산
____나이브베이즈알고리듬
______나이브베이즈를이용한분류
______라플라스추정량
______나이브베이즈에서수치특성이용
__예제:나이브베이즈알고리듬을이용한휴대폰스팸필터링
____단계1:데이터수집
____단계2:데이터탐색과준비
______데이터준비:텍스트데이터정리와표준화
______데이터준비:텍스트문서를단어로나누기
______데이터준비:훈련및테스트데이터세트생성
______텍스트데이터시각화:단어구름
______데이터준비:자주사용하는단어의지시자특징생성
____단계3:데이터에대한모델훈련
____단계4:모델성능평가
____단계5:모델성능개선
__요약

05장.분할정복:의사결정트리와규칙기반의분류
__의사결정트리의이해
____분할정복
____C5.0의사결정트리알고리듬
______최고의분할선택
______의사결정트리가지치기
__예제:C5.0의사결정트리를이용한위험은행대출식별
____단계1:데이터수집
____단계2:데이터탐색과준비
______데이터준비:랜덤한훈련및테스트데이터세트생성
____단계3:데이터에대한모델훈련
____단계4:모델성능평가
____단계5:모델성능개선
____의사결정트리의정확도향상
____더비싼실수
__분류규칙이해
____분리정복
____1R알고리듬
____리퍼알고리듬
____의사결정트리에서규칙구성
____무엇이트리와규칙을탐욕스럽게만드는가?
__예제:규칙학습자를이용한독버섯식별
____단계1:데이터수집
____단계2:데이터탐색과준비
____단계3:데이터에대한모델훈련
____단계4:모델성능평가
____단계5:모델성능개선
__요약

06장.수치데이터예측:회귀방법
__회귀의이해
____단순선형회귀
____일반최소제곱추정
____상관관계
____다중선형회귀
____일반화선형모델과로지스틱회귀
__예제:선형회귀를사용한자동차보험금청구예측
____단계1:데이터수집
____단계2:데이터탐색과준비
______특징간의관계탐색:상관관계행렬
______특징간관계시각화:산포도행렬
____단계3:데이터에대한모델훈련
____단계4:모델성능평가
____단계5:모델성능개선
______모델명시:비선형관계추가
______모델명시:상호작용영향추가
______모두합치기:개선된회귀모델
______회귀모델로예측하기
______심화:로지스틱회귀를사용해보험가입자이탈예측하기
__회귀트리와모델트리의이해
____트리에회귀추가
__예제:회귀트리와모델트리로와인품질평가
____단계1:데이터수집
____단계2:데이터탐색과준비
____단계3:데이터에대한모델훈련
______의사결정트리시각화
____단계4:모델성능평가
______평균절대오차로성능측정
____단계5:모델성능개선
__요약

07장.블랙박스방법:신경망과서포트벡터머신
__신경망의이해
____생물학적뉴런에서인공뉴런으로
____활성함수
____네트워크토폴로지
______계층수
______정보이동방향
______계층별노드개수
____역전파로신경망훈련
__예제:ANN으로콘크리트강도모델링
____단계1:데이터수집
____단계2:데이터탐색과준비
____단계3:데이터대한모델훈련
____단계4:모델성능평가
____단계5:모델성능개선
__서포트벡터머신의이해
____초평면을이용한분류
______선형적으로분리가능한데이터의경우
______비선형적으로분리가능한데이터의경우
____비선형공간을위한커널의사용
__예제:SVM으로OCR수행
____단계1:데이터수집
____단계2:데이터탐색과준비
____단계3:데이터에대한모델훈련
____단계4:모델성능평가
____단계5:모델성능향상
______SVM커널함수변경
______최적SVM비용파라미터알아내기
__요약

08장.패턴찾기:연관규칙을이용한장바구니분석
__연관규칙의이해
____연관규칙학습을위한아프리오리알고리듬
____규칙흥미측정:지지도와신뢰도
____아프리오리원칙을이용한규칙집합의구축
__예제:연관규칙으로자주구매되는식료품식별
____단계1:데이터수집
____단계2:데이터탐색과준비
______데이터준비:거래데이터를위한희소행렬생성
______아이템지지도시각화:아이템빈도그래프
______거래데이터시각화:희소행렬도표화
____단계3:데이터에대한모델훈련
____단계4:모델성능평가
____단계5:모델성능개선
______연관규칙집합정렬
______연관규칙의부분집합구하기
______연관규칙을파일이나데이터프레임에저장하기
______더효율적인실행을위해Eclat알고리듬을사용하기
__요약

09장.데이터그룹찾기:k-평균군집화
__군집화의이해
____머신러닝작업으로서군집화
____군집화알고리듬의클러스터
____k-평균군집화알고리듬
______거리이용해클러스터할당및수정
______적절한클러스터개수선택
__k-평균군집화를이용한10대시장세분화발굴
____단계1:데이터수집
____단계2:데이터탐색과준비
______데이터준비:결측치더미코딩
______데이터준비:결측치대체
____단계3:데이터에대한모델훈련
____단계4:모델성능평가
____단계5:모델성능개선
__요약

10장.모델성능평가
__분류성능측정
____분류기의예측이해
____혼동행렬자세히보기
____혼동행렬을사용한성능측정
____정확도를넘어:다른상능측도
______카파통계량
______매튜의상관계수
______민감도와특이도
______정밀도와재현율
______F-측도
__ROC곡선으로성능트레이드오프시각화
____ROC곡선비교
____ROC곡선하영역
____ROC곡선의생성과R로AUC계산
__미래의성능예측
____홀드아웃방법
____교차검증
____부트스트랩샘플링
__요약

11장.머신러닝으로성공하기
__성공적인머신러닝전문가를만드는것
__성공적인머신러닝모델을만드는요소
____뻔한예측피하기
____공정한평가수행
____실세계영향고려
____모델에신뢰구축
__데이터과학에과학을담기
____R노트북과R마크다운의사용
____고급데이터탐색수행
______데이터탐색로드맵구축
______이상치상대하기:실세계함정
______예제:시각적데이터탐색에ggplot2사용
__요약

12장.고급데이터준비
__특징공학수행
____사람과기계의역할
____빅데이터와딥러닝의영향
__특징공학의실제적용
____힌트1:새로운특징브레인스토밍
____힌트2:문맥에숨은통찰력찾기
____힌트3:수치범위변환
____힌트4:이웃의행동관찰
____힌트5:연계된행활용
____힌트6:시계열분해
____힌트7:외부데이터첨부
__R의tidyverse탐색
____tibble로타이디테이블구조만들기
____readr와readxl을사용해사각형파일을더빠르게읽기
____dplyr로데이터준비하고파이프하기
____stringr로문자변환
____lubridate를사용한데이터정리
__요약

13장.까다로운데이터:너무많고,너무적고,너무복잡
__고차원데이터의과제
____특징선택적용
______필터기법
______래퍼기법과임베디드기법
______예제:특징선택에단계적회귀사용
______예제:Boruta를사용한특징선택
____특징추출수행
______주성분분석이해
______예제:PCA를사용해고차원소셜미디어데이터축소
__희소데이터사용
____희소데이터식별
____예제:희소범주형데이터재매핑
____예제:희소숫자데이터빈만들기
__누락된데이터처리
____누락된데이터의유형이해
____결측값대치수행
______결측값표시기가있는단순대치
______결측값패턴
__불균형데이터문제
____데이터군형조정을위한간단한전략
____SMOTE를사용해합성균형데이터세트생성
______예제:R에서SMOTE알고리듬적용
____균형이항상더나은지고려
__요약

14장.더나은학습자구축
__더나은성능을위해기본모델조정
____하이퍼파라미터튜닝의범위결정
____예제:caret를사용한튜닝자동화
____간단히튜닝된모델만들기
____맞춤형튜닝프로세스
__앙상블을통한모델성능개선
____앙상블학습의이해
____인기있는앙상블기반알고리듬
______배깅
______부스팅
______랜덤포레스트
______그래디언트부스팅
______XGBoost를사용한익스트림그래디언트부스팅
______트리기반앙상블이인기있는이유
__메타학습을위한모델쌓기
____모델쌓기와혼합이해
____R에서의블렌딩및스태킹을위한실용적인방법
__요약

15장.빅데이터활용
__딥러닝의실제적용
____딥러닝으로시작하기
______딥러닝을위한적절한과제선택
______텐서플로와케라스딥러닝프레임워크
____컨볼루션신경망의이해
______전이학습과미세튜닝
______예제:R에서사전훈련된CNN을사용한이미지분류
__비지도학습과빅데이터
____고차원적개념을임베딩으로표현
______단어임베딩이해
______예제:R에서텍스트를이해하기위한word2vec사용
____고차원데이터시각화
______빅데이터시각화를위한PCA사용의한계
______t-SNE알고리듬이해
______예제:t-SNE로데이터의자연적클러스터시각화
__대규모데이터세트처리에R적용
____SQL데이터베이스에서데이터쿼리
______데이터베이스연결관리를위한정돈된접근방식
______dbplyr와함께dplyr용데이터베이스백엔드사용
____병렬처리로더빠르게작업수행
______R의실행시간측정
______R에서병렬처리활성화
______foreach와doParallel을통한병렬활용
______caret을사용해병렬로모델훈련과평가
____특수하드웨어와알고리듬활용
______아파치스파크를통한맵리듀스개념의병렬컴퓨팅
______H2O로분산되고확장가능한알고리듬으로학습
______GPU컴퓨팅
__요약

출판사 서평

이책에서다루는내용

-머신러닝의원신데이터에서구현까지의엔드-투-엔드과정학습
-최근접이웃과베이지안기법으로주요결과분류
-결정트리,규칙,서포트벡터머신을사용해미래의사건예측
-회귀기법으로수치데이터를예측하고금융수치추정
-인공신경망으로복잡한프로세스모델링
-tidyverse를사용해데이터를준비,변환,정제
-모델을평가하고성능을향상
-R을SQL데이터베이스와Spark,Hadoop,H2O,TensorFlow등의떠오르는빅데이터기술과연결

이책의대상독자

데이터에접근하고그데이터를활용하고자하는사업분석가,사회과학자등의응용분야종사자를대상으로하는책이다.이미머신러닝에대해약간알고있지만R을사용한경험이없을수도있고,반대로R에대해약간알고있지만머신러닝은처음이거나아예둘다처음일수도있다.어떤경우에도이책은여러분을빠르게시작하게해줄것이다.기본수학과프로그래밍개념에약간이라도익숙하다면도움이되겠지만사전경험은필요하지않다.필요한것은호기심뿐이다.

이책의구성

1장,‘머신러닝소개’에서는머신학습자(machinelearner)를정의하고구분해주는용어와개념을살펴보고,학습작업을적절한알고리듬에매칭하는방법을제시한다.2장,‘데이터의관리와이해’에서는R을이용해서데이터를직접다룰수있는기회를제공한다.데이터를로딩하고,탐색하고,이해하는데사용되는필수데이터구조와절차를설명한다.3장,‘게으른학습:최근접이웃을사용한분류’에서는단순하지만강력한머신러닝알고리듬을이해하고,첫번째실제작업인암의악성샘플식별에적용하는방법을알려준다.4장,‘확률적학습:나이브베이즈분류’에서는최첨단스팸필터링시스템에서사용하고있는확률의핵심적인개념을소개한다.독자는자신만의스팸필터를개발하는과정에서텍스트마이닝의기초를배울수있다.5장,‘분할정복:의사결정트리와규칙기반의분류’에서는예측을정확하고쉽게설명하는2가지학습알고리듬을탐색한다.이방법은투명성이중요한작업에적용된다.

6장,‘수치데이터예측:회귀방법에’서는수치예측에사용되는머신러닝알고리듬을소개한다.이기법은통계분야에아주많이포함돼있으므로수치관계를이해하는데필요한필수척도도함께알아본다.7장,‘블랙박스방법:신경망과서포트벡터머신’에서는복잡하고강력한두종류의머신러닝알고리듬을다룬다.수학이위협적으로보일수있겠지만내부작동을보여주는예제와함께간단한용어로진행한다.8장,‘패턴찾기:연관규칙을이용한장바구니분석’에서는많은소매업체가채택한추천시스템의알고리듬을접할수있다.소매업체가나의구매습관을나보다더잘아는이유가궁금한적이있었다면8장에서그비밀을밝혀준다.9장,‘데이터그룹찾기:k-평균군집화’에서는관련아이템을군집화하는절차를알아본다.이알고리듬을활용해온라인커뮤니티에서프로필을식별한다.10장,‘모델성능평가’에서는머신러닝프로젝트의성공여부를측정하고미래데이터에대한학습자의신뢰할만한성능추정치를얻는방법에대해정보를제공한다.

11장,‘머신러닝으로성공하기’에서는교과서데이터세트에서실세계머신러닝문제로전환할때마주치는흔한함정과이문제를극복하는데필요한도구,전략,소프트스킬을알아본다.12장,‘고급데이터준비’에서는머신러닝프로세스를도와의미있는정보를추출하고자대용량데이터세트를다루는데도움이되는tidyverse패키지를소개한다.13장,‘까다로운데이터:너무많고,너무적고,너무복잡한데이터’에서는유용한정보가거대한데이터세트속에서바늘을찾는것과유사하게유실돼머신러닝프로젝트를방해할수있는여러일반적인문제에대한해결책을고려한다.14장,‘더나은학습자구축’에서는머신러닝대회리더보드상위팀들이사용하는방법을공개한다.경쟁심을갖고있거나데이터에서최대한의이점을얻고자하는경우이러한기술을여러분의능력에추가해야할것이다.15장,‘빅데이터활용’에서는머신러닝의최전선을탐구한다.매우큰데이터세트를다루는것부터R의작업속도를높이는것까지,다루는주제는여러분이R로가능한범위의한계를넓히는데도움이될것이며,구글과같은대규모기관에서이미지인식및텍스트데이터이해를위해개발한정교한도구를활용할수있게해줄것이다.

지은이의말

머신러닝은핵심적으로데이터를실행가능한지능으로변환하는알고리듬을기술한다.이사실은머신러닝을현대의빅데이터시대에적합하게만든다.머신러닝이없다면우리주변의거대한정보스트림을이해하는것은거의불가능할것이다.R은크로스플랫폼이며비용이들지않는통계프로그래밍환경을제공해서머신러닝을시작하는이상적인방법을구축해준다.R은강력하지만배우기쉬운도구를제공해데이터에서통찰을찾는데도움을준다.이책은이러한알고리듬이어떻게작동하는지이해하고자필요한필수이론과실전사례연구를결합해머신러닝을시작하고프로젝트에이를적용할수있는모든지식을제공한다.

옮긴이의말

머신러닝에대한기초부터최신의트렌드까지‘꼼꼼하게’소개한책이다.4판에서는기존보다4개의장을새로보강해머신러닝에있어핵심인데이터에서발생하는결측치등의여러문제를어떻게다루는지에대해상세히알려준다.동시에빅데이터를다루는방법을설명한다.머신러닝의기본기법을설명하는기존의여러장도새로운예제를보강하거나추가적인설명을통해더쉽고편하게머신러닝을익힐수있게배려하고있다.각장에있는여러예제를따라하다보면자연스럽게머신러닝의여러개념을익힐수있다.머신러닝에대한여러입문서가있지만이책은내용의충실성과함께비유를통한쉬운설명을모두겸비한흔치않은책이다.머신러닝을처음으로배우려하거나이미머신러닝의기초개념을알고있지만좀더깊은원리와예제를직접경험하고싶다면이책이좋은가이드가될것이다.