자바 데이터 분석 (자바로 배우는 데이터 분석과 빅데이터 처리, 데이터 시각화 방법)

자바 데이터 분석 (자바로 배우는 데이터 분석과 빅데이터 처리, 데이터 시각화 방법)

$35.37
Description
자바를 사용해 다양한 데이터 분석 기법을 구현하는 방법을 알려주는 책이다. 자바를 사용한 기본적인 데이터 처리 방법과 데이터 시각화 방법, 다양한 통계치를 도출하는 프로그램 구현 방법이 예제로 쉽게 구현돼 있다. 또한 관계형 데이터베이스와 NoSQL 데이터베이스를 활용한 데이터 분석 방법 등 데이터베이스 기반의 분석 프로그래밍 방식도 다루고 있다. 일반적으로 데이터 분석 문제에서 많이 접근하는 회귀 분석, 분류 분석, 군집 분석 등을 아파치 커먼즈(Apache Commons)나 웨카(Weka) 같은 오픈소스를 활용해 구현하는 방법도 소개한다. 그 외에 추천 알고리즘, 빅데이터 분석 등의 이슈도 함께 다룬다.
저자

존R.허바드

(JohnR.Hubbard)
40년동안펜실베이니아와버지니아의대학교에서컴퓨터기반의데이터분석을해왔다.펜실베이니아주립대학교에서컴퓨터과학석사학위를취득하고미시간대학교에서수학박사학위를취득했다.현재는리치몬드대학교의수학,컴퓨터과학명예교수로데이터구조와데이터베이스시스템,수치해석과빅데이터를가르치고있다.
컴퓨터관련6권의책을비롯해다양한책과연구논문을편찬했다.그중일부는독일어,프랑스어,중국어등5개언어로번역됐다.또한아마추어팀파니연주가이기도하다.

목차

1장.데이터분석개론
__데이터분석의기원
__과학적방법
__보험학
__증기로계산
__멋진예시
__허먼홀러리스
__에니악
__비지칼크
__데이터,정보,지식
__왜자바인가?
__자바통합개발환경
__요약

__2장.데이터처리
__데이터유형
__변수
__데이터요소와데이터셋
__데이터요소와데이터셋
____널값
__관계형데이터베이스테이블
____키필드
____키-값쌍
__해시테이블
__파일형식
____마이크로소프트엑셀데이터
____XML과JSON데이터
__테스트데이터셋생성
____메타데이터
____데이터클리닝
____데이터스케일링
____데이터필터링
____정렬
____병합
____해싱
__요약

3장.데이터시각화
__테이블과그래프
____산점도
____선그래프
____막대그래프
____히스토그램
__시계열데이터
__자바구현체
__이동평균
__데이터순위
__도수분포
__정규분포
____사고실험
__지수분포
__자바예제
__요약

4장.통계
__기술통계
__임의추출
__확률변수
__확률분포
__누적분포
__이항분포
__다변량분포
__조건부확률
__확률적이벤트의독립
__분할표
__베이즈정리
__상관계수와공분산
__표준정규분포
__중심극한정리
__신뢰구간
__가설검정
__요약

5장.관계형데이터베이스
__관계데이터모델
__관계형데이터베이스
__외래키
__관계형데이터베이스디자인
____데이터베이스생성
____SQL명령문
____데이터베이스에데이터입력
____데이터베이스쿼리
____SQL데이터유형
____JDBC
____JDBC의PreparedStatement사용하기
____배치처리
____데이터베이스뷰
____서브쿼리
____테이블인덱스
__요약

6장.회귀분석
__선형회귀
____엑셀에서의선형회귀
____회귀상관계수계산
____분산분석
____선형회귀자바구현
____앤스콤쿼텟
__다항식회귀
____다중선형회귀분석
____아파치커먼즈구현
____곡선적합
__요약

7장.분류분석
__의사결정트리
____의사결정트리와엔트로피와의관계
____ID3알고리즘
__웨카플랫폼
____ARFF파일유형
____웨카를사용한자바구현
__베이지안분류기
____웨카를사용한자바구현
____서포트벡터머신알고리즘
__로지스틱회귀
____K-최근접이웃알고리즘
____퍼지분류알고리즘
__요약

8장.클러스터분석
__거리측정
__차원의저주
__계층적클러스터링
____웨카구현
____K-평균클러스터링
____K-중간점클러스터링
____유사성전파클러스터링
__요약

9장.추천시스템
__유틸리티행렬
__유사도측정
__코사인유사도
__간단한추천시스템
__아마존아이템기반협업필터링
__사용자등급구현
__거대희소행렬
__임의접근파일사용
__넷플릭스경진대회
__요약

10장.NoSQL데이터베이스
__맵데이터구조
__SQL과NoSQL
__몽고데이터베이스시스템
__도서관데이터베이스
__몽고DB를사용한자바개발
__지리정보데이터베이스를위한몽고DB확장
__몽고DB에서의인덱스
__왜NoSQL인가?왜몽고DB인가?
__타NoSQL데이터베이스시스템
__요약

11장.빅데이터분석
__확장,데이터스트라이핑,샤딩
__구글페이지랭크알고리즘
__구글맵리듀스프레임워크
__맵리듀스애플리케이션예제
__워드카운트예제
__확장성
__맵리듀스를사용한행렬곱
__몽고DB에서의맵리듀스
__아파치하둡
__하둡맵리듀스
__요약

부록.자바도구
__명령창
__자바
__이클립스
__MySQL
__MySQL워크벤치
__이클립스에서MySQL데이터베이스접근
__몽고DB

출판사 서평

★이책에서다루는내용★

■텍스트를포함한다양한크기의데이터셋을분석하는자바프로그램개발
■회귀,분류,클러스터링같은중요한머신러닝알고리즘구현
■데이터분석과시각화를위한오픈소스자바라이브러리와API를적용한인터페이스개발
■관계형데이터베이스와NoSQL데이터베이스를활용한시계열데이터분석
■자바도구를사용한다양한형식의데이터시각화
■멀티미디어데이터분석알고리즘과자바를사용한알고리즘구현

★이책의대상독자★

이책은데이터분석에대한이해를높이고해당분야에서알고리즘을구현하는자바소프트웨어개발능력을갖춘학생과실무자를대상으로한다.

★이책의구성★

1장,‘데이터분석개론’에서는사회문제를해결하는데있어데이터분석의역사적발전과정과중요성을설명한다.
2장,‘데이터처리’에서는데이터가저장되는다양한형태를소개하고,데이터셋의관리방법과정렬,병합,해싱같은기본처리기술을알아본다.
3장,‘데이터시각화’에서는그래프와표,시계열분석,이동평균,정규및지수분포관련자바애플리케이션을다룬다.
4장,‘통계’에서는무작위성,다변량분포,이항분포,조건부확률,독립,통계분할표,베이즈정리,공분산과상관관계,중심극한정리,신뢰구간및가설검정등기본적인확률및통계이론을배운다.
5장,‘관계형데이터베이스’에서는외래키와SQL,쿼리,JDBC,배치작업,데이터베이스의뷰,서브쿼리,인덱싱등관계형데이터베이스접근과개발에대해다룬다.자바와JDBC를사용해관계형데이터베이스에적재된데이터를분석하는방법을배워보자.
6장,‘회귀분석’에서는선형회귀,다항식회귀,다중선형회귀분석을포함한예측분석의중요한부분을언급한다.아파치커먼즈매쓰라이브러리를사용해자바에서회귀분석을구현하는방법을배워보자.
7장,‘분류분석’에서는결정트리,엔트로피,ID3알고리즘,ARFF파일,베이지안분류기,서포트벡터머신알고리즘,로지스틱회귀,K-최근접이웃알고리즘,퍼지분류알고리즘에대해다룬다.웨카라이브러리를사용해자바에서이러한알고리즘을구현하는방법을알아보자.
8장,‘클러스터분석’에서는계층적클러스터링,K-평균클러스터링,K-중간점클러스터링,유사성전파클러스터링을알아본다.역시나웨카라이브러리를사용해자바로구현해보자.
9장,추천시스템에서는유틸리티행렬,유사도측정,코사인유사도,아마존의아이템기반추천시스템,대용량희소행렬및넷플릭스의경연역사를다룬다.
10장,‘NoSQL데이터베이스’에서는몽고DB데이터베이스시스템을중심으로지형공간데이터베이스를포함한자바개발방법을알아본다.
11장,‘빅데이터분석’에서는구글의페이지랭크알고리즘과맵리듀스프레임워크를알아볼것이다.특히단어수세기(WordCount)예제와행렬곱예제를통해자바로위알고리즘과프레임워크를구현하는방법을알아본다.
부록,‘자바도구’에서는이책에서사용하는모든소프트웨어,즉이클립스,MySQL,몽고DB의설치방법을정리했다.

★옮긴이의말★

다양한솔루션과시스템을구성및개발하는프로젝트를진행하며절실히깨달은사실이하나있다.바로많은데이터를보유하고,보유한데이터를적절히사용할줄아는기업이결국좋은시스템과솔루션을보유하게된다는것이다.
데이터를잘활용해글로벌기업이된가장대표적인예가구글이라고생각한다.구글은전세계의웹데이터를모아자신의데이터로만들었으며,그저데이터를모으는데그치지않고다양한기술과비즈니스를개발하는데활용했다.
기술이발전할수록데이터의중요성은나날이증가하고있고,데이터의양도중요성에비례해증가하고있다.데이터를분석해가치있는뭔가를발견하는것이점점더중요해지는이유다.
일반적으로데이터분석시R이나파이썬같은언어를많이사용한다.자바는어느언어보다거대하고다양한오픈소스생태계를갖고있고,다양한플랫폼에서하나의소스로동작한다는이점을갖고있다.이러한자바의강점을기반으로데이터분석영역에서도자바가훌륭한도구로사용될수있음을이책을통해알수있다.
자바가데이터분석에활용하기에는부족하다는인식이바뀌어좀더많은곳에서자바로데이터분석을수행하는모습을볼수있기를바란다.