데이터 마이닝 개념과 기법 : 빅데이터에 숨겨진 패턴과 인사이트 발견의 방법 (4판)

데이터 마이닝 개념과 기법 : 빅데이터에 숨겨진 패턴과 인사이트 발견의 방법 (4판)

$59.77
Description
종합적인 학문 및 기술 분야로서 데이터 마이닝의 특징을 소개하며, 정보 기술의 진화와 데이터 마이닝의 필요성, 그리고 응용 분야의 중요성에 대해 설명한다. 먼저, 데이터 마이닝을 위한 다양한 유형의 데이터 타입에 대해 알아보고, 데이터 마이닝 작업의 주요 유형과 마이닝 지식의 종류, 사용되는 기술의 종류, 그리고 분석 환경에 따라 활용되는 다양한 기법에 대해 설명한다.

저자

지아웨이한,지안페이,항항통

저자:지아웨이한(JiaweiHan)
일리노이대학교어바나샴페인캠퍼스(UIUC,UniversityofIllinoisatUrbana-Champaign)컴퓨터과학학부의마이클에이켄(MichaelAiken)석좌교수이며,지식발견및데이터마이닝연구에대한기여로ACM(AssociationforComputingMachinery)SIGKDD혁신상(2004),IEEE(InstituteofElectricalandElectronicsEngineers)컴퓨터학회기술공로상(2005),IEEEW.월러스맥도웰(WallaceMcDowell)상(2009)등을수상했다.ACM및IEEE의펠로(fellow)연구자다.『ACMTransactionsonKnowledgeDiscoveryfromData』(2006-2011)의창립편집장을역임했으며,『IEEETransactionsonKnowledgeandDataEngineering』,『DataMiningandKnowledgeDiscovery』등여러저널의편집위원회회원으로활동했다.

저자:지안페이(JianPei)
듀크대학교(DukeUniversity)에서컴퓨터과학,바이오통계학및생명정보학,전기및컴퓨터공학교수로재직중이다.2002년에사이먼프레이저대학교(SimonFraserUniversity)에서지아웨이한교수의지도아래컴퓨터과학박사학위를받았으며,데이터마이닝,데이터베이스,웹검색,정보검색분야에서다수의논문을발표하고,학계커뮤니티에적극적으로기여했다.캐나다로열소사이어티(RoyalSocietyofCanada),캐나다공학아카데미(CanadianAcademyofEngineering),ACM및IEEE의펠로연구자다.2017년ACMSIGKDD혁신상,2015년ACMSIGKDD서비스상을수상했다.

저자:항항통(HanghangTong)
UIUC컴퓨터과학학과에서부교수로재직중이다.2009년에카네기멜론대학교(CarnegieMellonUniversity)에서박사학위를받았으며,200개이상의심사논문을발표했으며,여러권위있는상과수천건의인용으로인정받았다.SIGKDDExplorations(ACM)의편집장이며여러저널의부편집장으로활동중이다.

역자:동준상
클라우드,인공지능부문강연자,저술가다.KPC한국생산성본부,삼성SDS멀티캠퍼스등주요고객외,과학기술정보통신부,산업통상자원부,국방부등정부부처및산하기관,삼성SDS,삼성전자,신한은행,기아자동차등기업,서울대학교,고려대학교,포항공대등대학에서관련주제로강연을했다.
소프트웨어엔지니어링과오픈소스에관심이많으며,에이콘출판에서출간한『AWS공인솔루션스아키텍트스터디가이드-어소시에이트4/e』(2023),『AWS공인솔루션스아키텍트올인원-어소시에이트2/e』(2021),『GreatCodeVol.3』(2021),『자바머신러닝마스터』(2019)와그외20여권을번역했다.

목차

1장.데이터마이닝개요
1.1데이터마이닝이란?
1.2데이터마이닝:지식발견의핵심절차
1.3데이터타입의다양성
1.4다양한지식유형의마이닝
1.4.1다차원데이터의요약기법
1.4.2빈발패턴,연관성,상관관계마이닝
1.4.3예측적분석을위한분류와회귀분석
1.4.4클러스터분석
1.4.5딥러닝
1.4.6이상점분석
1.4.7데이터마이닝결과의유의미성
1.5데이터마이닝:다양한학문의융합
1.5.1데이터와통계학
1.5.2머신러닝과데이터마이닝
1.5.3데이터베이스와데이터마이닝
1.5.4데이터과학과데이터마이닝
1.5.5다른학문과데이터마이닝
1.6데이터마이닝과응용분야
1.7데이터마이닝과사회과학
1.8정리
1.9연습문제
1.10참고자료

2장.데이터,측정,전처리
2.1데이터타입
2.1.1명목형데이터
2.1.2이진데이터
2.1.3서수형데이터
2.1.4수치형데이터
2.1.5이산형및연속형데이터
2.2데이터분석을위한통계의주요개념
2.2.1중심화경향의측정
2.2.2분산화수준의측정
2.2.3공분산과상관관계
2.2.4통계적분석결과의시각화
2.3유사성과비유사성측정
2.3.1데이터행렬과비유사성행렬
2.3.2명목형데이터의확률측정
2.3.3이진데이터의확률측정
2.3.4수치형데이터의비유사성:민코프스키거리
2.3.5서수형데이터의확률측정
2.3.6혼합데이터타입의비유사성측정
2.3.7코사인유사성
2.3.8유사성분포도측정:KL발산
2.3.9유사성을이용한패턴발견
2.4전처리:데이터품질개선을위한정련,통합
2.4.1데이터품질측정
2.4.2데이터정련기법
2.4.3데이터통합기법
2.5데이터변환
2.5.1데이터정규화
2.5.2데이터이산화
2.5.3데이터압축
2.5.4데이터표본추출
2.6복잡한데이터의차원축소기법
2.6.1PCA기법
2.6.2속성하위집합선택기법
2.6.3비선형차원축소기법
2.7정리
2.8연습문제
2.9참고자료

3장.데이터웨어하우스와OLAP
3.1데이터웨어하우스
3.1.1데이터웨어하우스란?
3.1.2데이터웨어하우스아키텍처:기업용데이터웨어하우스및데이터마트
3.1.3데이터레이크
3.2데이터웨어하우스구현:스키마와측정기법
3.2.1데이터큐브:다차원데이터모델
3.2.2다차원데이터스키마:스타,스노플레이크,팩트컨스텔레이션
3.2.3개념계층구조
3.2.4측정:카테고리화및연산
3.3OLAP연산
3.3.1전형적인OLAP연산
3.3.2OLAP데이터인덱싱:비트맵인덱싱및조인인덱싱
3.3.3스토리지구현:칼럼기반데이터베이스
3.4데이터큐브연산
3.4.1데이터큐브연산의주요용어
3.4.2데이터큐브구현:아이디어
3.4.3OLAP서버아키텍처:ROLAP,MOLAP,HOLAP비교
3.4.4데이터큐브연산의검증된전략
3.5데이터큐브연산기법
3.5.1MultiWay-전체큐브에대한다방향배열집계
3.5.2BUC:꼭지점큐보이드에서하향아이스버그큐브계산하기
3.5.3셸프래그먼트:고차원OLAP에대한사전연산
3.5.4큐보이드를이용한OLAP쿼리효율성개선
3.6정리
3.7연습문제
3.8참고문헌

4장.패턴마이닝의개념과기법
4.1빈발패턴의기본개념
4.1.1마켓바스켓분석
4.1.2빈발아이템셋,닫힌아이템셋,연관규칙
4.2빈발아이템셋마이닝기법
4.2.1Apriori알고리듬:제한된후보생성을통한빈발아이템셋탐색
4.2.2빈발아이템을통한연관규칙생성
4.2.3Apriori의효율성개선
4.2.4빈발아이템셋마이닝을위한FP-growth기법
4.2.5수직적데이터형식을이용한빈발아이템셋마이닝
4.2.6닫힌패턴및최대패턴마이닝
4.3패턴검증:패턴의유용성평가
4.3.1강한규칙이항상유용한것은아니다
4.3.2상관관계분석을위한연관성분석
4.3.3패턴검증방식비교
4.4정리
4.5연습문제
4.6참고문헌

5장.패턴마이닝:고급기법
5.1다양한패턴의마이닝기법
5.1.1다수준연관규칙마이닝
5.1.2다차원연관규칙마이닝
5.1.3양적연관규칙마이닝
5.1.4고차원데이터마이닝
5.1.5희귀패턴및부정적패턴마이닝
5.2압축패턴또는근사패턴마이닝
5.2.1패턴클러스터링기반의압축패턴마이닝
5.2.2중복성을고려한상위k패턴마이닝
5.3제약조건기반패턴마이닝
5.3.1제약조건기반패턴공간가지치기
5.3.2제약조건기반의데이터공간가지치기
5.3.3간결성조건기반의마이닝공간가지치기
5.4순차적패턴마이닝
5.4.1순차적패턴마이닝:개념과원리
5.4.2순차적패턴마이닝기법의확장
5.4.3제약조건기반순차적패턴마이닝
5.5서브그래프패턴마이닝
5.5.1빈발서브그래프마이닝기법
5.5.2다양성기반및제약조건기반서브그래프마이닝
5.6패턴마이닝사례분석
5.6.1대규모텍스트데이터의구마이닝
5.6.2소프트웨어의복사및붙여넣기오류마이닝
5.7정리
5.8연습문제
5.9참고자료

6장.분류:기본개념과기법
6.1분류의기본개념
6.1.1분류의정의
6.1.2기본적인분류기법
6.2분류모델:의사결정트리
6.2.1의사결정트리모델개요
6.2.2속성선택척도
6.2.3의사결정트리가지치기
6.3베이즈분류기법
6.3.1베이즈정리
6.3.2나이브베이즈분류기
6.4레이지러너
6.4.1KNN분류기
6.4.2사례기반추론
6.5선형분류기
6.5.1선형회귀
6.5.2퍼셉트론:선형회귀의분류변환
6.5.3로지스틱회귀
6.6모델평가및선택
6.6.1분류모델성능평가지표
6.6.2홀드아웃기법및랜덤서브샘플링
6.6.3교차평가기법
6.6.4부트스트랩
6.6.5모델선택을위한통계적유의성검정
6.6.6비용-이익및ROC커브를이용한분류기성능비교
6.7분류정확도개선방법
6.7.1앙상블기법개요
6.7.2배깅
6.7.3부스팅
6.7.4랜덤포레스트
6.7.5클래스불균형데이터의분류정확도개선
6.8정리
6.9연습문제
6.10참고문헌

7장.분류의고급기법
7.1특성치선택,특성치구성
7.1.2래퍼기법
7.1.3임베디드기법
7.2베이즈신뢰네트워크
7.2.1개념과작동원리
7.2.2베이즈신뢰네트워크훈련시키기
7.3서포트벡터머신
7.3.1선형서포트벡터머신
7.3.2비선형서포트벡터머신
7.4규칙기반분류,패턴기반분류
7.4.1IF-THEN규칙기반분류
7.4.2의사결정트리에서규칙추출하기
7.4.3순차적커버링알고리듬을이용한규칙유추
7.4.4연관분류
7.4.5차별적빈발패턴기반분류
7.5약한지도식분류
7.5.1반지도식분류
7.5.2액티브러닝
7.5.3전이학습
7.5.4원격지도
7.5.5제로샷러닝
7.6리치데이터타입의분류
7.6.1스트림데이터분류
7.6.2시퀀스데이터분류
7.6.3그래프데이터분류
7.7최신의분류기법,연관기술
7.7.1멀티클래스분류
7.7.2거리지표학습
7.7.3분류의의미해석
7.7.4유전적알고리듬
7.7.5강화학습
7.8정리
7.9연습문제
7.10참고문헌

8장.클러스터링의기본개념과주요기법
8.1클러스터분석
8.1.1클러스터분석의개요
8.1.2클러스터링을위한요구사항
8.1.3기본적인클러스터링기법개요
8.2파티셔닝클러스터링기법
8.2.1k-means:중심기반클러스터링
8.2.2k-means변형클러스터링기법
8.3계층적클러스터링기법
8.3.1계층적클러스터링의기본개념
8.3.2병합식계층적클러스터링
8.3.3분할식계층적클러스터링
8.3.4BIRCH:클러스터피처트리기반의계층적클러스터링
8.3.5확률식계층적클러스터링
8.4밀도기반클러스터링과그리드기반클러스터링
8.4.1DBSCAN:고밀도연결지역을이용한밀도기반클러스터링
8.4.2DENCLUE:밀도분포함수기반클러스터링
8.4.3그리드기반클러스터링
8.5클러스터링성능평가
8.5.1클러스터링경향평가
8.5.2클러스터의수결정방식
8.5.3클러스터링품질측정:외연적기법
8.5.4내재적기법
8.6정리
8.7연습문제
8.8참고문헌

9장.고급클러스터링기법
9.1확률적모델기반클러스터링
9.1.1퍼지클러스터
9.1.2확률적모델기반클러스터
9.1.3기댓값최대화알고리듬
9.2고차원데이터에대한클러스터링
9.2.1고차원데이터에대한클러스터링이어려운이유
9.2.2축방향하위공간접근법
9.2.3임의방향하위공간접근법
9.3바이클러스터링
9.3.1바이클러스터링의활용방식
9.3.2바이클러스터의종류
9.3.3바이클러스터링기법
9.3.4MaPle을이용한바이클러스터열거기법
9.4클러스터링을위한차원축소
9.4.1클러스터링을위한선형차원축소
9.4.2비음수행렬분해
9.4.3스펙트럴클러스터링
9.5그래프및네트워크데이터클러스터링
9.5.1응용분야및도전과제
9.5.2그래프데이터의유사성측정
9.5.3그래프데이터의클러스터링기법
9.6반지도식클러스터링
9.6.1부분적라벨지정데이터의반지도식클러스터링
9.6.2쌍별제약조건기반의반지도식클러스터링
9.6.3반지도식클러스터링을위한기반지식
9.7정리
9.8연습문제
9.9참고문헌

10장.딥러닝과CNN,RNN,GNN모델
10.1딥러닝의기본개념
10.1.1딥러닝개요
10.1.2역전파알고리듬
10.1.3딥러닝모델학습의주요도전과제
10.1.4딥러닝아키텍처개요
10.2딥러닝모델의학습효율개선
10.2.1반응형활성화함수

출판사 서평

◈이책에서다루는내용◈

◆딥러닝에대한포괄적인지식을제공하기위해딥러닝모델기반의훈련개선전략,합성곱신경망(CNN),순환신경망(RNN),그래프신경망(GNN)등에대해심도있게알아본다.
◆최신연구성과를파악할수있도록데이터마이닝의트렌드및각광받는연구분야를다룬다.텍스트,시공간데이터,그래프/네트워크등리치데이터유형,감정분석,진실발견,정보전파등데이터마이닝응용방법론,데이터마이닝방법론및시스템,사회적가치를고려한데이터마이닝에대해소개한다.
◆데이터에서여러분이필요로하는최상의가치를추출하기위한개념과기법에대해살펴본다.

◈이책의구성◈

이책의1,2,3판출간이후데이터마이닝분야에서다수의큰진전이있었다.특히정보네트워크,그래프,복합구조,데이터스트림등새로운유형의데이터처리에특화된데이터마이닝방법론,시스템,애플리케이션이개발됐다.이러한빠른발전과새롭게추가된풍부한기술을한권의책에담기는어려우므로우리공저자는나름의대안을찾아야했다.결국,이번4판에서는책의범위를확장하는대신핵심주제를충분한범위와깊이로다루고,복잡한데이터유형과분석환경등해당주제에좀더집중하기로결정했다.
4판은지난1~3판의내용을큰폭에서개정하고,데이터마이닝기술부분을재구성했다.특히,다양한데이터유형에대한마이닝방법론을처리하는핵심기술자료가크게확장되고개선됐다.우리공저자는책을간결하면서도최신상태로유지하기위해다음방법으로개정작업을진행했다.(1)3판에서두개장으로구성된‘데이터이해’와‘데이터전처리’를하나의장,‘데이터,측정,데이터전처리’로통합했다.또,기존‘데이터시각화’는개념의이해가쉽고,다른전문데이터시각화서적에서다뤘으며,소프트웨어도구가웹에서널리사용가능하므로제외했다.(2)3판의‘데이터웨어하우징과온라인분석처리’와‘데이터큐브기술’장을하나의장으로병합했으며,유용성이다소떨어지는데이터큐브계산방법과데이터큐브확장을생략하고,‘데이터레이크(lake)’라는새로운개념을추가했다.(3)3판의주요데이터마이닝방법론장인패턴발견,분류,클러스터링,이상치분석은내용을향상시키고최신의트렌드를반영해업데이트했다.(4)새로운장으로‘딥러닝’을추가했으며,신경망과딥러닝방법론에대한체계적인소개를포함시켰다.(5)마지막장인‘데이터마이닝트렌드및최신연구분야’는완전히다시작성했으며,데이터마이닝의다양한고급주제를종합적이며간결하게다뤘다.마지막으로,(6)이책의내용을이해하는데필요한기본적인수학적배경지식을부록으로포함시켰다.

◈옮긴이의말◈

1970년대의기나긴AI침체기를지나1980년대AI부흥기에등장한데이터마이닝은머신러닝과딥러닝의기반기술로서,데이터에서유의미한패턴과지식을추출해AI모델의학습효율과성능강화에기여해왔다.
2000년대에데이터마이닝은데이터전처리,특성추출,차원축소등데이터의품질을높이고효율적분석프로세스를의미했으며,이상치감지,연관규칙탐색,분류및클러스터링등데이터마이닝의전통적인접근방식은현대적인머신러닝기법이돼데이터에대한이해수준을높이고알고리듬의예측정확성을높이는데도움을줬다.
2010년이후데이터마이닝기술은현대머신러닝및딥러닝모델이더욱정교하고신뢰성있는결과를생성하도록지원하며,챗GPT등생성형AI을포함한다양한응용분야가발전하고성장하기위한기반기술로서역할을수행하고있다.
데이터과학자및데이터엔지니어등연구자는데이터마이닝의개념과기법을이해함으로써최신의생성형AI의발전에필요한데이터기반통찰과최적화방법을제공할수있으며,현대AI모델이지닌잠재력을극대화할수있다.
지난3판이후거의10여년만에출간된이번4판은그동안있었던AI산업과데이터분석기법의변화를반영했으며,데이터분석의기초라고할수있는데이터수집및전처리,데이터웨어하우스,단순또는복잡한데이터에서의패턴마이닝,지도식기법인분류와회귀분석,비지도식기법인클러스터링기법을상세히설명한다.
책의후반부에서는딥러닝구현을위한기반기술인신경망구현,피드포워드와역전파,활성함수및손실함수,엔트로피,오토인코더등전문적인주제와다양한데이터맥락에서의이상치탐색법,최근학계및산업계에서주목받는연구주제도알아본다.
이번『데이터마이닝개념과기법4/e』은데이터분석가는물론이고,최신의생성형AI연구자에게필요한지난40여년간의데이터마이닝개념과기술을이해할수있는소중한기회가될것이다.

저자의말

현대사회의컴퓨터화는인간의능력을크게향상시켰으며다양한출처에서데이터를생성하고수집하는데많은도움이됐다.우리삶의거의모든측면에서엄청난양의데이터가쏟아지고있으며,저장된데이터또는전송중데이터의급증으로인해데이터를유용한정보와지식으로변환하는데지능적으로도움을주는새로운기술과자동화된도구를찾아야한다.데이터마이닝과다양한응용분야를포함한컴퓨터과학의발전은대규모데이터처리에대한우리의필요성을반영한것이다.데이터마이닝은데이터로부터지식발견또는KDD(KnowledgeDiscoveryfromData)로도부르며,대규모데이터베이스,데이터웨어하우스(warehouse),웹,기타대규모정보저장소또는데이터스트림에암묵적으로저장되거나캡처된지식의패턴을자동으로편리하게추출하기위한개념,방법,절차를의미한다.
이책은지식의발견및데이터마이닝을위한개념과기술을탐구한다.데이터마이닝은통계학,머신러닝,패턴인식,데이터베이스기술,정보검색,자연어처리,네트워크과학,지식기반시스템,AI,고성능컴퓨팅,데이터시각화등다양한분야와연계된연구분야다.데이터마이닝연구자는대량의데이터집합에서숨겨진패턴을발견하기위한기술의타당성,유용성,효과성,확장성등다양한측면을연구한다.따라서이책은통계학,머신러닝,데이터베이스시스템또는다른해당분야의입문서로집필된것은아니지만,이들분야에관심을가진독자를위한폭넓은배경지식을제공한다.이책은데이터마이닝에대한포괄적인입문서이며,컴퓨터과학전공자,애플리케이션개발자,비즈니스전문가,그리고통계학,머신러닝등앞서언급한연구자모두에게유용한교과서또는참고서가될수있다.
데이터마이닝은1980년대후반에등장한뒤1990년대에큰발전을이뤘으며,2000년대에도지속적으로발전하고있다.이책은데이터마이닝분야의전반적인그림을제시하며,흥미로운데이터마이닝의개념과기술을소개하고응용분야와연구방향에대해논의한다.이책의중요한집필동기중하나는데이터마이닝연구를위한조직화된프레임워크를구축하는것이며,이는다양한학문분야에연계됐으며,빠르게발전하는데이터마이닝의학문적특성으로인해어려운작업이었다.우리는이책이다양한배경과경험을가진사람들과데이터마이닝에대한의견을교환하고,흥미로우며역동적인우리의연구분야가좀더활성화되는데도움이되기를기대한다.