빅데이터 마이닝 (하둡을 이용한 대용량 데이터 마이닝 기법 | 3 판)

빅데이터 마이닝 (하둡을 이용한 대용량 데이터 마이닝 기법 | 3 판)

$52.51
Description
웹, 소셜 미디어, 모바일 활동, 센서, 인터넷 상거래, 그 외 많은 애플리케이션의 발달로 엄청난 규모의 데이터가 생성되고 있으며, 데이터 마이닝으로 이런 데이터에서 유용한 정보를 얻을 수 있다. 이 책은 데이터 마이닝 분야의 핵심 과제들을 해결하고, 대규모 데이터에 적용할 수 있는 현실적인 알고리즘들에 초점을 맞추고 있다
저자

쥬어레스코벡

JureLeskovec
스탠퍼드대학교(StanfordUniversity)컴퓨터학과의부교수로재직중이다.주요연구분야는대규모소셜네트워크및정보네트워크마이닝이다.대규모데이터,웹과온라인미디어에기인한문제들에관심이많다.이와관련된연구로마이크로소프트학술상(MicrosoftResearchFacultyFellowship),알프레드P.슬론학술상(theAlfredP.SloanFellowship),오카와재단학술상(OkawaFoundationFellowship)과다수의최고논문상을수상했다.또한스탠퍼드네트워크분석플랫폼(SNAP,StanfordNetworkAnalysisPlatform)(http://snap.stanford.edu)과수억개의노드및수십억개의에지(edge)를갖는대형네트워크로쉽게확장가능한범용네트워크및그래프마이닝을고안했다.트위터에서@jure로그를팔로우할수있다.

목차

1장.데이터마이닝

1.1데이터마이닝이란?
1.1.1모델링
1.1.2통계모델링
1.1.3머신러닝
1.1.4모델링에대한연산적접근
1.1.5요약
1.1.6특징추출
1.2데이터마이닝의통계적한계점
1.2.1통합정보인지
1.2.2본페로니의이론
1.2.3본페로니의이론사례
1.2.41.2절연습문제
1.3알아두면유용한사실들
1.3.1문서에서의단어중요도
1.3.2해시함수
1.3.3인덱스
1.3.4보조기억장치
1.3.5자연로그의밑
1.3.6멱법칙
1.3.71.3절연습문제
1.4이책의개요
1.5요약
1.6참고문헌

2장.맵리듀스와새로운소프트웨어스택

2.1분산파일시스템
2.1.1노드들의물리적구조
2.1.2대용량파일시스템구조
2.2맵리듀스
2.2.1맵태스크
2.2.2키에의한그루핑
2.2.3리듀스태스크
2.2.4컴바이너
2.2.5맵리듀스실행에대한더자세한설명
2.2.6노드장애처리
2.2.72.2절연습문제
2.3맵리듀스를사용하는알고리즘
2.3.1맵리듀스를사용한행렬벡터곱셈
2.3.2벡터v가메인메모리에올라가지않는경우
2.3.3관계대수연산
2.3.4맵리듀스를사용한선택연산
2.3.5맵리듀스를사용한추출연산
2.3.6맵리듀스를사용한합집합,교집합,차집합연산
2.3.7맵리듀스를사용한자연조인연산
2.3.8맵리듀스를사용한그루핑과집계연산
2.3.9행렬곱셈
2.3.10한단계맵리듀스를사용한행렬곱셈
2.3.112.3절연습문제
2.4맵리듀스의확장
2.4.1워크플로시스템
2.4.2스파크
2.4.3스파크구현
2.4.4텐서플로
2.4.5맵리듀스의재귀적확장
2.4.6벌크동기시스템
2.4.72.4절연습문제
2.5통신비용모델
2.5.1태스크네트워크에서의통신비용
2.5.2월-클록시간
2.5.3다중조인
2.5.42.5절연습문제
2.6맵리듀스에대한복잡도이론
2.6.1리듀서크기와복제율
2.6.2예제:유사도조인
2.6.3맵리듀스문제를위한그래프모델
2.6.4매핑스키마
2.6.5모든입력이주어지지않은경우
2.6.6복제율의하한값
2.6.7사례분석:행렬곱셈
2.6.82.6절연습문제
2.7요약
2.8참고문헌

3장.유사항목찾기

3.1집합유사도의응용
3.1.1집합의자카드유사도
3.1.2문서의유사성
3.1.3유사집합문제에서의협업필터링
3.1.43.1절연습문제
3.2문서의슁글링
3.2.1k-슁글
3.2.2슁글의크기선택
3.2.3슁글의해싱
3.2.4단어를기반으로만드는슁글
3.2.53.2절연습문제
3.3집합의유사도보존요약
3.3.1집합의행렬표현
3.3.2민해싱
3.3.3민해싱과자카드유사도
3.3.4민해시시그니처
3.3.5민해시시그니처연산의실제
3.3.6민해싱속도향상
3.3.7해시함수를사용한속도향상
3.3.83.3절연습문제
3.4문서의지역성기반해싱
3.4.1민해시시그니처의LSH
3.4.2밴드분할기법의분석
3.4.3기법들의결합
3.4.43.4절연습문제
3.5거리측정
3.5.1거리측정법의정의
3.5.2유클리드거리
3.5.3자카드거리
3.5.4코사인거리
3.5.5편집거리
3.5.6해밍거리
3.5.73.5절연습문제
3.6지역성기반함수의이론
3.6.1지역성기반함수
3.6.2자카드거리에대한지역성기반함수군
3.6.3지역성기반함수의확장
3.6.43.6절연습문제
3.7다른거리측정법들을위한LSH함수군
3.7.1해밍거리에대한LSH함수군
3.7.2무작위초평면과코사인거리
3.7.3스케치
3.7.4유클리드거리의LSH함수군
3.7.5유클리드공간에서의LSH함수군에대한더자세한설명
3.7.63.7절연습문제
3.8지역성기반해시응용분야
3.8.1개체식별
3.8.2개체식별예제
3.8.3레코드의일치판정
3.8.4지문판독
3.8.5지문판독을위한LSH함수군
3.8.6유사한신문기사
3.8.73.8절연습문제
3.9높은유사도처리방법
3.9.1동일한항목찾기
3.9.2집합의문자열표현
3.9.3길이기반필터링
3.9.4접두사인덱싱
3.9.5위치정보이용
3.9.6인덱스위치및길이활용
3.9.73.9절연습문제
3.10요약
3.11참고문헌

4장.스트림데이터마이닝

4.1스트림데이터모델
4.1.1데이터스트림관리시스템
4.1.2스트림소스의예
4.1.3스트림질의
4.1.4스트림처리시이슈
4.2스트림데이터의표본추출
4.2.1동기부여를위한예제
4.2.2대표표본추출
4.2.3일반적인표본추출문제
4.2.4표본크기검증
4.2.54.2절연습문제
4.3스트림필터링
4.3.1동기부여를위한예제
4.3.2블룸필터
4.3.3블룸필터링분석
4.3.44.3절연습문제
4.4스트림에서중복을제거한원소개수세기
4.4.1중복을제거한원소개수
4.4.2플라졸레-마틴알고리즘
4.4.3근사치의조합
4.4.4필요공간
4.4.54.4절연습문제
4.5모멘트근사치
4.5.1모멘트의정의
4.5.2두번째모멘트를위한알론-마티아스-세게디알고리즘
4.5.3알론-마티아스-세게디알고리즘작동원리
4.5.4높은모멘트
4.5.5무한한스트림의처리
4.5.64.5절연습문제
4.6윈도우내에서의카운트
4.6.1정확하게개수를세는데드는비용
4.6.2다타르-지오니스-인디크-모트와니알고리즘
4.6.3DGIM알고리즘을위한공간요구조건
4.6.4DGIM알고리즘으로질의응답하기
4.6.5DGIM조건유지하기
4.6.6오차줄이기
4.6.7일반적인개수세기로확장
4.6.84.6절연습문제
4.7감쇠윈도우
4.7.1자주등장하는원소를찾는문제
4.7.2감쇠윈도우의정의
4.7.3가장인기있는원소들찾기
4.8요약
4.9참고문헌

5장.링크분석

5.1페이지랭크
5.1.1초기검색엔진과용어스팸
5.1.2페이지랭크의정의
5.1.3웹의구조
5.1.4데드엔드피하기
5.1.5스파이더트랩과세금매김
5.1.6검색엔진의페이지랭크사용
5.1.75.1절연습문제
5.2페이지랭크의효율적인연산
5.2.1전이행렬의표현
5.2.2맵리듀스를이용한페이지랭크반복
5.2.3결과벡터를합산해내기위한컴바이너의사용
5.2.4전이행렬의블록표현
5.2.5페이지랭크반복연산을위한그외효율적인접근법
5.2.65.2절연습문제
5.3주제기반페이지랭크
5.3.1주제기반페이지랭크의필요성
5.3.2편향된랜덤워크
5.3.3주제기반페이지랭크의사용
5.3.4단어로부터주제추론
5.3.55.3절연습문제
5.4링크스팸
5.4.1스팸팜의구조
5.4.2스팸팜분석
5.4.3링크스팸과의전쟁
5.4.4트러스트랭크
5.4.5스팸매스
5.4.65.4절연습문제
5.5허브와권위자
5.5.1HITS의직관적이해
5.5.2허브지수와권위지수의공식화
5.5.35.5절연습문제
5.6요약
5.7참고문헌

6장.빈발항목집합

6.1시장바구니모델
6.1.1빈발항목집합의정의
6.1.2빈발항목집합의응용
6.1.3연관규칙
6.1.4신뢰도가높은연관규칙찾기
6.1.56.1절연습문제
6.2시장바구니와선험적알고리즘
6.2.1시장바구니데이터의표현
6.2.2항목집합을세기위한메인메모리의사용
6.2.3항목집합의단조성
6.2.4쌍개수로의귀결
6.2.5선험적알고리즘
6.2.6모든빈발항목집합을위한선험적알고리즘
6.2.76.2절연습문제
6.3메인메모리에서더큰데이터셋처리하기
6.3.1PCY알고리즘
6.3.2다단계알고리즘
6.3.3다중해시알고리즘
6.3.46.3절연습문제
6.4단계한정알고리즘
6.4.1단순무작위알고리즘
6.4.2표본추출알고리즘에서의오류방지
6.4.3SON알고리즘
6.4.4SON알고리즘과맵리듀스
6.4.5토이보넨의알고리즘
6.4.6토이보넨의알고리즘이동작하는이유
6.4.76.4절연습문제
6.5스트림에서빈발항목개수세기
6.5.1스트림에서의표본추출방법
6.5.2감쇠윈도우에서의빈발항목집합
6.5.3기법들의결합
6.5.46.5절연습문제
6.6요약
6.7참고문헌

7장.클러스터링

7.1클러스터링기법의개요
7.1.1점,공간,거리
7.1.2클러스터링전략
7.1.3차원의저주
7.1.47.1절연습문제
7.2계층적클러스터링
7.2.1유클리드공간에서계층적클러스터링
7.2.2계층적클러스터링의효율성
7.2.3그외의계층적클러스터링처리규칙들
7.2.4비유클리드공간에서계층적클러스터링
7.2.57.2절연습문제
7.3K평균알고리즘
7.3.1k평균의기초
7.3.2k평균의클러스터초기화
7.3.3적합한k값의선택
7.3.4BFR알고리즘
7.3.5BFR알고리즘의데이터처리
7.3.67.3절연습문제
7.4CURE알고리즘
7.4.1CURE에서의초기화
7.4.2CURE알고리즘의종료
7.4.37.4절연습문제
7.5비유클리드공간에서클러스터링
7.5.1GRGPF알고리즘의클러스터표현방식
7.5.2클러스터트리초기화
7.5.3GRGPF알고리즘에서점들을추가하기
7.5.4클러스터의분할과병합
7.5.57.5절연습문제
7.6스트림을위한클러스터링과병렬처리
7.6.1스트림연산모델
7.6.2스트림-클러스터링알고리즘
7.6.3버킷초기화
7.6.4버킷병합

출판사 서평

★이책에서다루는내용★

■대규모데이터를처리할수있는병렬알고리즘을만드는툴인분산파일시스템과맵리듀스
■민해시와지역성기반해시알고리즘의핵심기술및유사도검색
■매우빨리입력돼즉각처리하지않으면유실되는데이터를다루는데특화된알고리즘과데이터스트림처리
■구글의페이지랭크,링크스팸탐지,허브와권위자기법을포함하는검색엔진기술
■연관규칙,시장바구니모델,선험적알고리즘과이를개선한기법들및빈발항목집합마이닝
■대규모고차원데이터집합을클러스터링하는알고리즘
■웹애플리케이션과관련된두가지문제인광고와추천시스템
■소셜네트워크그래프처럼매우큰구조의분석과마이닝을위한알고리즘들
■특이값분해와잠재의미색인및차원축소를통해대규모데이터에서중요한속성을도출해내는기법들
■퍼셉트론,서포트벡터머신,경사하강같은대규모데이터에적용가능한머신러닝알고리즘
■컨볼루션신경망,순환신경망,장단기메모리네트워크등특수한경우를포함하는신경망및딥러닝

★이책의대상독자★

데이터베이스와웹기술을선도하는학자들이쓴이책은학생과실무자모두를위한필독도서다.다음의과정을익힌독자들에게적합한책이다.

■SQL및관련프로그래밍시스템을주제로하는데이터베이스시스템입문
■대학2학년수준의자료구조,알고리즘,이산수학
■대학2학년수준의소프트웨어시스템,소프트웨어엔지니어링,프로그래밍언어

★옮긴이의말★

이제는빅데이터라는용어자체만큼이나그용어의식상함을논하는것조차식상하게느껴지는시대가됐다.그러나이책은허식없이현실적인접근방식으로데이터마이닝기법을빅데이터에적용하는방법을설명하고있다.각기법을메모리에담을수있는경우와메모리에담을수없는경우로나눠친절하게해법을알려준다.서서히데이터과학분야는관련업계의통계학자나엔지니어가갖춰야할선택적인‘지식’이아닌,필수적인‘상식’이돼가고있다.어쩌면우리는미래의상식을공부하기위해이책을펼친것인지도모른다.이책은통계학,데이터마이닝,컴퓨터공학을동시에다루고있음에도이세분야를자세하고도조화롭게서술하고있다.덕분에대학교재(http://www.mmds.org/)임에도실무에도움이될정도로깊이가있다는장점이있다.동시에통계학자와엔지니어모두에게어려운책이돼버렸다는단점도있다.
따라서이책을공부하는데도움이되는팁을먼저공유한다.
1.원서는아래URL에서무료로다운로드할수있다.번역서만으로잘이해가되지않는부분이있다면해당부분을원서에서찾아반복해서세번정도차분하게읽어보기바란다.
http://infolab.stanford.edu/~ullman/mmds/book0n.pdf
2.아무래도대학교재이다보니전개방식이연역적이며딱딱한편이라서이해가어려울수있다.각절의앞부분을이해하지못했더라도일단빠르게읽고넘어간후예제를보기바란다.예제를읽고나서다시앞부분의이론을보면이해가쉬울것이다.
통계학자와엔지니어는각기다른관점으로데이터과학이라는분야에접근한다.통계학자들은신뢰구간과불확실성측정에관심이많은반면,프로그래머들은머신러닝을통한재빠른구현과그결과에더관심을두는편이다.이를정리하기위해조시윌스(https://twitter.com/josh_wills/)는이렇게말했다.
“데이터과학자란통계학을남들보다잘알고있는소프트웨어공학자,그리고소프트웨어공학을남들보다잘알고있는통계학자를말한다.“
하지만이것만으로분석가의자질을논하기에는뭔가부족하다.현업에서데이터를분석하다보면무엇보다도데이터도메인에대한지식과분석노하우가가장중요하다는사실을느끼게된다.그리고해당도메인을잘이해하기위해서때로는인문학적소양이필요한시점이오기도한다.이론이나기술보다는데이터자체의품질과양이더중요하며,데이터에서가치를만들어내는것은결국분석가의자질에달렸다.
-박효균

빅데이터에서‘빅’이의미하는양만큼실제로엄청난대규모데이터가생성되면서이들을처리하고분석하기위한요구사항이늘어갔으며,어느하나의기술로이를해결할수는없었으므로학문간통합은필수적이었다.학문간통합에대한시도는오래전부터있어왔으나,지금처럼그시도가빛을발하는시기는없었던듯하다.통계학,전산학,데이터마이닝이라는학문의기초가수학이라는점을고려해보면이들간의통합을통해난제를해결하고있는지금의현상은어쩌면필연적인결과인지도모른다.이를가능하게한기술로서하둡(Hadoop)을언급하지않을수없다.그누구도빅데이터처리의핵심기술이며지금도여전히영향력을발휘하는하둡의중요성을부인하지는못할것이다.이책이맵리듀스(MapReduce)를기반으로데이터처리방법을설명하는이유가바로이것이다.
통계,전산,데이터마이닝기법에대한학문적기초가없다면갑자기등장하는생소한용어들에멈칫하게될순간이많을것이다.그럴때마다해당용어를찾아내용을이해한후넘어가는것도좋고,일단전체적인맥락을이해한후세부적인용어들을정리하는것도좋다.어찌됐든빅데이터마이닝을위해이책을펼친독자여러분을응원하며,이를통해한단계성장하는학생,엔지니어,실무자가되길바란다.역자로서용어선택에고심이많았다.통계학은그렇다치더라도전산학과데이터마이닝에서사용되는용어대부분은한글로번역했을때의미가퇴색되거나더어려워지는경우가많았기때문이다.따라서한글을우선으로하되,해당용어가실무에서영어로더많이사용된다면굳이한글로번역하지않고음역했다.‘clustering’을클러스터링’으로번역한예가대표적이다.실무에서는아무도‘클러스터링’을‘군집화’라고하지않는다.
오랜기간친구이자같은업계에몸담은동료로서전폭적인도움과조언을아끼지않았던공동역자박효균님께깊은감사를전한다.
-이미정