◈이책에서다루는내용◈
◆딥러닝에대한포괄적인지식을제공하기위해딥러닝모델기반의훈련개선전략,합성곱신경망(CNN),순환신경망(RNN),그래프신경망(GNN)등에대해심도있게알아본다.
◆최신연구성과를파악할수있도록데이터마이닝의트렌드및각광받는연구분야를다룬다.텍스트,시공간데이터,그래프/네트워크등리치데이터유형,감정분석,진실발견,정보전파등데이터마이닝응용방법론,데이터마이닝방법론및시스템,사회적가치를고려한데이터마이닝에대해소개한다.
◆데이터에서여러분이필요로하는최상의가치를추출하기위한개념과기법에대해살펴본다.
◈이책의구성◈
이책의1,2,3판출간이후데이터마이닝분야에서다수의큰진전이있었다.특히정보네트워크,그래프,복합구조,데이터스트림등새로운유형의데이터처리에특화된데이터마이닝방법론,시스템,애플리케이션이개발됐다.이러한빠른발전과새롭게추가된풍부한기술을한권의책에담기는어려우므로우리공저자는나름의대안을찾아야했다.결국,이번4판에서는책의범위를확장하는대신핵심주제를충분한범위와깊이로다루고,복잡한데이터유형과분석환경등해당주제에좀더집중하기로결정했다.
4판은지난1~3판의내용을큰폭에서개정하고,데이터마이닝기술부분을재구성했다.특히,다양한데이터유형에대한마이닝방법론을처리하는핵심기술자료가크게확장되고개선됐다.우리공저자는책을간결하면서도최신상태로유지하기위해다음방법으로개정작업을진행했다.(1)3판에서두개장으로구성된‘데이터이해’와‘데이터전처리’를하나의장,‘데이터,측정,데이터전처리’로통합했다.또,기존‘데이터시각화’는개념의이해가쉽고,다른전문데이터시각화서적에서다뤘으며,소프트웨어도구가웹에서널리사용가능하므로제외했다.(2)3판의‘데이터웨어하우징과온라인분석처리’와‘데이터큐브기술’장을하나의장으로병합했으며,유용성이다소떨어지는데이터큐브계산방법과데이터큐브확장을생략하고,‘데이터레이크(lake)’라는새로운개념을추가했다.(3)3판의주요데이터마이닝방법론장인패턴발견,분류,클러스터링,이상치분석은내용을향상시키고최신의트렌드를반영해업데이트했다.(4)새로운장으로‘딥러닝’을추가했으며,신경망과딥러닝방법론에대한체계적인소개를포함시켰다.(5)마지막장인‘데이터마이닝트렌드및최신연구분야’는완전히다시작성했으며,데이터마이닝의다양한고급주제를종합적이며간결하게다뤘다.마지막으로,(6)이책의내용을이해하는데필요한기본적인수학적배경지식을부록으로포함시켰다.
◈옮긴이의말◈
1970년대의기나긴AI침체기를지나1980년대AI부흥기에등장한데이터마이닝은머신러닝과딥러닝의기반기술로서,데이터에서유의미한패턴과지식을추출해AI모델의학습효율과성능강화에기여해왔다.
2000년대에데이터마이닝은데이터전처리,특성추출,차원축소등데이터의품질을높이고효율적분석프로세스를의미했으며,이상치감지,연관규칙탐색,분류및클러스터링등데이터마이닝의전통적인접근방식은현대적인머신러닝기법이돼데이터에대한이해수준을높이고알고리듬의예측정확성을높이는데도움을줬다.
2010년이후데이터마이닝기술은현대머신러닝및딥러닝모델이더욱정교하고신뢰성있는결과를생성하도록지원하며,챗GPT등생성형AI을포함한다양한응용분야가발전하고성장하기위한기반기술로서역할을수행하고있다.
데이터과학자및데이터엔지니어등연구자는데이터마이닝의개념과기법을이해함으로써최신의생성형AI의발전에필요한데이터기반통찰과최적화방법을제공할수있으며,현대AI모델이지닌잠재력을극대화할수있다.
지난3판이후거의10여년만에출간된이번4판은그동안있었던AI산업과데이터분석기법의변화를반영했으며,데이터분석의기초라고할수있는데이터수집및전처리,데이터웨어하우스,단순또는복잡한데이터에서의패턴마이닝,지도식기법인분류와회귀분석,비지도식기법인클러스터링기법을상세히설명한다.
책의후반부에서는딥러닝구현을위한기반기술인신경망구현,피드포워드와역전파,활성함수및손실함수,엔트로피,오토인코더등전문적인주제와다양한데이터맥락에서의이상치탐색법,최근학계및산업계에서주목받는연구주제도알아본다.
이번『데이터마이닝개념과기법4/e』은데이터분석가는물론이고,최신의생성형AI연구자에게필요한지난40여년간의데이터마이닝개념과기술을이해할수있는소중한기회가될것이다.
저자의말
현대사회의컴퓨터화는인간의능력을크게향상시켰으며다양한출처에서데이터를생성하고수집하는데많은도움이됐다.우리삶의거의모든측면에서엄청난양의데이터가쏟아지고있으며,저장된데이터또는전송중데이터의급증으로인해데이터를유용한정보와지식으로변환하는데지능적으로도움을주는새로운기술과자동화된도구를찾아야한다.데이터마이닝과다양한응용분야를포함한컴퓨터과학의발전은대규모데이터처리에대한우리의필요성을반영한것이다.데이터마이닝은데이터로부터지식발견또는KDD(KnowledgeDiscoveryfromData)로도부르며,대규모데이터베이스,데이터웨어하우스(warehouse),웹,기타대규모정보저장소또는데이터스트림에암묵적으로저장되거나캡처된지식의패턴을자동으로편리하게추출하기위한개념,방법,절차를의미한다.
이책은지식의발견및데이터마이닝을위한개념과기술을탐구한다.데이터마이닝은통계학,머신러닝,패턴인식,데이터베이스기술,정보검색,자연어처리,네트워크과학,지식기반시스템,AI,고성능컴퓨팅,데이터시각화등다양한분야와연계된연구분야다.데이터마이닝연구자는대량의데이터집합에서숨겨진패턴을발견하기위한기술의타당성,유용성,효과성,확장성등다양한측면을연구한다.따라서이책은통계학,머신러닝,데이터베이스시스템또는다른해당분야의입문서로집필된것은아니지만,이들분야에관심을가진독자를위한폭넓은배경지식을제공한다.이책은데이터마이닝에대한포괄적인입문서이며,컴퓨터과학전공자,애플리케이션개발자,비즈니스전문가,그리고통계학,머신러닝등앞서언급한연구자모두에게유용한교과서또는참고서가될수있다.
데이터마이닝은1980년대후반에등장한뒤1990년대에큰발전을이뤘으며,2000년대에도지속적으로발전하고있다.이책은데이터마이닝분야의전반적인그림을제시하며,흥미로운데이터마이닝의개념과기술을소개하고응용분야와연구방향에대해논의한다.이책의중요한집필동기중하나는데이터마이닝연구를위한조직화된프레임워크를구축하는것이며,이는다양한학문분야에연계됐으며,빠르게발전하는데이터마이닝의학문적특성으로인해어려운작업이었다.우리는이책이다양한배경과경험을가진사람들과데이터마이닝에대한의견을교환하고,흥미로우며역동적인우리의연구분야가좀더활성화되는데도움이되기를기대한다.