★이책에서다루는내용★
■텍스트를포함한다양한크기의데이터셋을분석하는자바프로그램개발
■회귀,분류,클러스터링같은중요한머신러닝알고리즘구현
■데이터분석과시각화를위한오픈소스자바라이브러리와API를적용한인터페이스개발
■관계형데이터베이스와NoSQL데이터베이스를활용한시계열데이터분석
■자바도구를사용한다양한형식의데이터시각화
■멀티미디어데이터분석알고리즘과자바를사용한알고리즘구현
★이책의대상독자★
이책은데이터분석에대한이해를높이고해당분야에서알고리즘을구현하는자바소프트웨어개발능력을갖춘학생과실무자를대상으로한다.
★이책의구성★
1장,‘데이터분석개론’에서는사회문제를해결하는데있어데이터분석의역사적발전과정과중요성을설명한다.
2장,‘데이터처리’에서는데이터가저장되는다양한형태를소개하고,데이터셋의관리방법과정렬,병합,해싱같은기본처리기술을알아본다.
3장,‘데이터시각화’에서는그래프와표,시계열분석,이동평균,정규및지수분포관련자바애플리케이션을다룬다.
4장,‘통계’에서는무작위성,다변량분포,이항분포,조건부확률,독립,통계분할표,베이즈정리,공분산과상관관계,중심극한정리,신뢰구간및가설검정등기본적인확률및통계이론을배운다.
5장,‘관계형데이터베이스’에서는외래키와SQL,쿼리,JDBC,배치작업,데이터베이스의뷰,서브쿼리,인덱싱등관계형데이터베이스접근과개발에대해다룬다.자바와JDBC를사용해관계형데이터베이스에적재된데이터를분석하는방법을배워보자.
6장,‘회귀분석’에서는선형회귀,다항식회귀,다중선형회귀분석을포함한예측분석의중요한부분을언급한다.아파치커먼즈매쓰라이브러리를사용해자바에서회귀분석을구현하는방법을배워보자.
7장,‘분류분석’에서는결정트리,엔트로피,ID3알고리즘,ARFF파일,베이지안분류기,서포트벡터머신알고리즘,로지스틱회귀,K-최근접이웃알고리즘,퍼지분류알고리즘에대해다룬다.웨카라이브러리를사용해자바에서이러한알고리즘을구현하는방법을알아보자.
8장,‘클러스터분석’에서는계층적클러스터링,K-평균클러스터링,K-중간점클러스터링,유사성전파클러스터링을알아본다.역시나웨카라이브러리를사용해자바로구현해보자.
9장,추천시스템에서는유틸리티행렬,유사도측정,코사인유사도,아마존의아이템기반추천시스템,대용량희소행렬및넷플릭스의경연역사를다룬다.
10장,‘NoSQL데이터베이스’에서는몽고DB데이터베이스시스템을중심으로지형공간데이터베이스를포함한자바개발방법을알아본다.
11장,‘빅데이터분석’에서는구글의페이지랭크알고리즘과맵리듀스프레임워크를알아볼것이다.특히단어수세기(WordCount)예제와행렬곱예제를통해자바로위알고리즘과프레임워크를구현하는방법을알아본다.
부록,‘자바도구’에서는이책에서사용하는모든소프트웨어,즉이클립스,MySQL,몽고DB의설치방법을정리했다.
★옮긴이의말★
다양한솔루션과시스템을구성및개발하는프로젝트를진행하며절실히깨달은사실이하나있다.바로많은데이터를보유하고,보유한데이터를적절히사용할줄아는기업이결국좋은시스템과솔루션을보유하게된다는것이다.
데이터를잘활용해글로벌기업이된가장대표적인예가구글이라고생각한다.구글은전세계의웹데이터를모아자신의데이터로만들었으며,그저데이터를모으는데그치지않고다양한기술과비즈니스를개발하는데활용했다.
기술이발전할수록데이터의중요성은나날이증가하고있고,데이터의양도중요성에비례해증가하고있다.데이터를분석해가치있는뭔가를발견하는것이점점더중요해지는이유다.
일반적으로데이터분석시R이나파이썬같은언어를많이사용한다.자바는어느언어보다거대하고다양한오픈소스생태계를갖고있고,다양한플랫폼에서하나의소스로동작한다는이점을갖고있다.이러한자바의강점을기반으로데이터분석영역에서도자바가훌륭한도구로사용될수있음을이책을통해알수있다.
자바가데이터분석에활용하기에는부족하다는인식이바뀌어좀더많은곳에서자바로데이터분석을수행하는모습을볼수있기를바란다.