데이터 마이닝 (실용적인 머신러닝 기술 | 4 판)

데이터 마이닝 (실용적인 머신러닝 기술 | 4 판)

$52.09
Description
머신러닝의 기초와 실제 데이터 마이닝에 적용하는 방법을 알려준다. 특히 4판에서는 데이터 준비, 분석 결과 해석, 결과 평가, 성공적인 데이터 마이닝 접근 방식의 핵심인 알고리듬에 이르기까지 데이터 마이닝을 진행하기 위해 알아야 할 모든 것을 다룬다.
선정 및 수상내역
2023년 대한민국학술원 우수학술도서 선정도서
저자

이안위튼

IanWitten
뉴질랜드와이카토대학교(UniversityofWaikato)의컴퓨터과학과교수이며뉴질랜드의디지털도서관연구프로젝트를지휘했다.관심사는정보검색,머신러닝,텍스트압축,데모주도프로그래밍이다.영국캠브리지대학교(CambridgeUniversity)에서수학으로석사학위를받았으며캐나다캘거리대학교(UniversityofCalgary)에서컴퓨터과학석사,잉글랜드의에섹스대학교(EssexUniversity)에서전기공학박사학위를받았다.지금은ACM과뉴질랜드왕립학회의회원으로활동중이다.디지털도서관,머신러닝,텍스트압축,음성합성및신호처리,컴퓨터타이포그래피등다방면에논문을발행했다.가장최근의책은『ManagingGigabytes(기가바이트단위의관리)』(1999)및『DataMining(데이터마이닝)』(2000)이다.

목차

1부.데이터마이닝의소개

1장.데이터마이닝…이게다뭐죠?
2장.입력-콘셉트,인스턴스,속성
3장.출력-지식의표현
4장.알고리듬-기본방식
5장.신뢰성-학습에대한평가

2부.고급머신러닝기술

6장.트리와규칙
7장.인스턴스기반및선형모델의확장
8장.데이터변환
9장.확률적방법
10장.딥러닝
11장.지도및비지도학습을넘어서
12장.앙상블학습
13장.응용영역,그너머의세계

부록A.이론적기초
부록B.WEKA워크벤치

출판사 서평

◈이책에서다루는내용◈
◆머신러닝개념의기본을살펴보고데이터마이닝프로젝트에적용할도구및기술에관한조언제공
◆성능개선을위해머신러닝의입력및결과의변형으로구체적인팁과기술제공
◆데이터마이닝작업용머신러닝알고리듬에광범위하게적용할수있는WEKA소프트웨어툴킷제공

◈이책의대상독자◈
머신러닝관행의기본원리와아이디어에관심이있고기술적으로잘알고있는일반독자를대상으로한다.또한이새로운기술에익숙해져야하는정보전문가와머신러닝이무엇을포함하는지자세히이해하려는모든사람에게관심을끌것이다.정보시스템실무자,프로그래머,컨설턴트,개발자,데이터과학자,정보기술관리자,사양작성자,특허심사관,호기심많은사람,학생,교수등다양한사용자를위해작성됐다.

◈이책의구성◈
1장,‘데이터마이닝…이게다뭐죠?’에서는예를통해머신러닝이무엇인지,어디에서사용할수있는지설명하고실제애플리케이션을제공한다.2장,‘입력-콘셉트,인스턴스,속성’과3장,‘출력-지식의표현’에서는관련된다양한종류의입력및출력또는지식표현을다룬다.다양한종류의출력은다양한스타일의알고리듬을지시하며4장,‘알고리듬:기본방법’은머신러닝의기본방법을설명하며이해하기쉽도록단순화했다.여기에서관련된원칙은복잡한세부사항이나까다로운구현문제에관여하지않고다양한알고리듬으로전달된다.특정데이터마이닝문제에머신러닝기술을적용하는데진전을이루려면얼마나잘하고있는지측정할수있어야한다.5장,‘신뢰성:학습에대한평가’를통해머신러닝에서얻은결과를평가하고성능평가와관련된복잡한문제를해결할수있다.
2부에서는데이터마이닝을위한고급머신러닝기술을소개한다.가장낮고가장상세한수준인6장,‘트리및규칙’및7장,‘인스턴스기반및선형모델확장’은머신러닝알고리듬수행의핵심적인이슈를세부적으로잘드러내며,실무에적용시필요한복잡성을내포하고있다(하지만몇가지알고리듬에필요한무거운수학적장치는생략한다).많은독자가이러한세부정보를무시하고싶어할수있지만,머신러닝구조의대부분작업은이레벨에서구현된다.8장,‘데이터변환’은머신러닝에대한입력및출력엔지니어링과관련된실제주제(예:속성선택및이산화)를설명한다.9장,‘확률적방법’과10장,‘딥러닝’에서는각각머신러닝및딥러닝의확률적방법을설명한다.11장,‘지도및비지도학습을넘어서’는준지도및다중인스턴스학습을살펴보고,12장,‘앙상블학습’에서는다양한학습기술의결과물을결합한‘앙상블학습’기술을다룬다.13장,‘응용영역,그너머의세계’는미래를내다본다.
부록에서는9장및10장의자료이해에필요한몇가지수학적배경을다룬다.또다른부록에서는1부및2부에설명된대부분의아이디어를구현하는WEKA데이터마이닝워크벤치(workbench)를소개한다.개념적자료를사용방법의실제적인측면에서명확하게분리하고자이를실었다.1부와2부의각장끝에는관련WEKA알고리듬을소개한다.

◈옮긴이의말◈
데이터마이닝이라는용어는2000년도초반에잠깐유행했었다.당시에는그냥데이터를어떻게잘모을까에집중했었는데(지금생각해보면이개념이데이터레이크등으로이어진것같다)분석등에대해서는마땅한도구가없었던것같다.
사실분석방법은옛날부터나이브베이즈와같이고전적인방법들이많이있었는데수많은데이터에적용시킬방법이없었던것같다.그래서2000년도초반에잠깐데이터마이닝이라는분야가나왔다가다시가라앉았던기억이있다.
R이나파이썬과같은언어들이나오면서다양한수학적연산이쉽게가능해졌다.이에따라다시예전에는적용에엄두도못냈던과거의방법들이라이브러리로구현되면서데이터마이닝분야도다시활기를띠기시작했다.
파이썬도이제다양한라이브러리를제공한다.하지만이라이브러리들을언제써야하는지그리고데이터에유실등의문제가발생하면어떻게대처해야하는지를모르는경우가많다.
이책은데이터분석의‘기본’을토대로방향을제시해주는책이다.데이터분석,신경망등에대한기본을알려주는책들은연일쏟아지지만문제가발생할때의해결,좀더나은성능개선등을알려주는책은별로없기때문에이책이더빛이나는게아닐까싶다.