자바 데이터 사이언스 쿡북 (Weka, MLlib, DL4j로 즐기는 머신 러닝 & 딥러닝)

자바 데이터 사이언스 쿡북 (Weka, MLlib, DL4j로 즐기는 머신 러닝 & 딥러닝)

$30.69
Description
실무에 적합한 데이터 분석 모델을 구축할 때, 자바(Java)가 도움이 될 수 있다. MLlib, Weka, DL4j 등과 같은 강력한 라이브러리를 사용하면 필요한 모든 데이터 과학 작업을 효율적으로 수행할 수 있다. 이 책은 다양한 데이터 과학 관련 문제를 해결하기 위한 방법을 제공한다. 먼저, 데이터를 수집하고 정리하고 인덱스를 생성해 검색하는 데 도움이 되는 방법부터 시작한다. 그리고 데이터에서 정보를 분석 및 학습하는 다양한 기술을 배우게 된다. 또한 대용량 데이터를 처리하고, 머신 러닝과 딥러닝을 적용하고, 데이터를 시각화하는 방법을 배울 수 있다.
저자

루시디샴스

캐나다웨스턴대학교에서머신러닝으로자연어처리(NLP)분야의박사학위를받았다.머신러닝과NLP전문가로일하기전에는학부와대학원에서강의했다.컴퓨터기술을학습할수있는유튜브채널<LearnwithRushdi>을운영하고있다.

목차

1장.데이터수집과정제
__서론
__자바를사용해하위디렉터리의모든파일명가져오기
__ApacheCommonsIO를사용해하위디렉터리의모든파일명가져오기
__자바8을사용해텍스트파일내용한번에읽기
__ApacheCommonsIO를사용해텍스트파일내용한번에읽기
__ApacheTika로PDF에서텍스트추출
__정규표현식으로ASCII텍스트파일정제
__Univocity를사용해CSV파일파싱
__Univocity를사용해TSV파일파싱
__JDOM으로XML파일파싱
__JSONsimple을사용해JSON파일쓰기
__JSONsimple을사용해JSON파일읽기
__JSoup을사용해URL로부터웹데이터추출
__셀레늄웹드라이버를사용해웹사이트에서웹데이터추출
__MySQL데이터베이스에서테이블데이터읽기

2장.데이터인덱싱과검색
__서론
__아파치루씬으로데이터인덱싱
__아파치루씬으로인덱싱된데이터검색

3장.데이터의통계적분석
__서론
__기술통계량생성
__요약통계량생성
__여러개의분포로부터요약통계량생성하기
__빈도분포계산
__문자열에서단어빈도계산
__자바8을사용해문자열의단어빈도계산
__단순회귀
__최소자승회귀
__일반화최소자승회귀
__두데이터셋의공분산계산
__두데이터셋의피어슨상관계수계산
__쌍체표본t-테스트
__카이제곱테스트
__일원분산분석
__콜모고로프-스미르노프테스트

4장.데이터로부터학습하기-1부
__서론
__ARFF파일생성및저장
__머신러닝모델의교차검증
__테스트데이터분류
__필터링된속성으로테스트데이터분류
__선형회귀모델
__로지스틱회귀모델
__KMeans알고리즘으로데이터군집화
__클래스를가진데이터군집화
__데이터로부터연관규칙학습
__저수준방법,필터링방법,메타분류기를이용한피쳐/속성선택

5장.데이터로부터학습하기-2부
__서론
__Java-ML라이브러리를사용해데이터에대한머신러닝수행
__스탠포드분류기를이용한데이터분류
__MOA를이용한데이터분류
__뮬란을이용한데이터분류

__6장.텍스트데이터에서정보추출하기
__서론
__자바를이용한토큰추출
__자바를이용한문장추출
__OpenNLP를이용한토큰과문장추출
__스탠포드CoreNLP를이용한단어의기본형과품사추출,개체명인식
__자바를사용해코사인유사도기준으로텍스트유사도측정
__맬릿을이용해텍스트문서에서토픽추출
__맬릿을이용한텍스트문서분류
__웨카를이용한텍스트문서분류

7장.빅데이터다루기
__서론
__아파치머하웃을이용한온라인로지스틱회귀모델학습
__아파치머하웃을이용한온라인로지스틱회귀모델적용
__아파치스파크를이용한단순텍스트마이닝문제해결
__MLib으로KMeans군집화수행
__MLib으로선형회귀모델생성
__MLib에서랜덤포레스트모델로데이터포인트분류

8장.데이터를깊이있게학습하기(딥러닝)
__서론
__DL4j를이용한word2vec신경망구현
__DL4j를이용한DBN신경망구현
__DL4j를이용한오토인코더구현

9장.데이터시각화
__서론
__2D사인그래프그리기
__히스토그램그리기
__막대차트그리기
__상자수염플롯그리기
__산점도그리기
__도넛플롯그리기
__영역그래프그리기

출판사 서평

★이책에서다루는내용★

■데이터정제및전처리방법
■정보추출과데이터변환에필요한최신머신러닝기법
■대용량의데이터저장및검색방법
■텍스트형식인빅데이터에서의정보추출기술
■빅데이터와딥러닝에필요한기본기술향상
■데이터시각화기술을통해얻는가치있는인사이트
■단계적학습을통해업계표준적인실제데이터프로덕션환경에대한실력향상

★이책의대상독자★

자바로데이터과학과관련된실제문제를해결하고자하는모든독자를대상으로한다.매우포괄적인내용을다루고있기때문에데이터과학분야의프로젝트문제를자바로해결하고싶은실무자들에게도매우유용할것이다.

★이책의구성★

1장,'데이터수집과정제'에서는데이터를읽고쓰는다양한방법과함께데이터에서노이즈를제거해정제하는법을다룬다.또한PDF,ASCII,CSV,TSV,XML,JSON과같은다양한파일형식에서데이터를읽는법도배운다.웹데이터를추출하는방법도소개할것이다.
2장,'데이터인덱싱과검색빠른'에서는검색을위해데이터를인덱싱하는방법을아파치루씬(ApacheLucene)을사용해학습한다.여기서설명하는기술은현대검색기술의기초가될것이다.
3장,'데이터의통계적분석'에서는데이터에서통계정보를수집하고분석하기위해아파치MathAPI를사용한다.또한분석결과를벤치마크와비교하는표준도구인통계적유의성검정과같은개념도다룰것이다.
4장,'데이터로부터학습하기-1부'에서는웨카(Weka)머신러닝워크벤치를이용해분류(classification),군집화(clustering),피쳐선택(featureselection)등을연습해본다.
5장,'데이터로부터학습하기-2부'에서는자바머신러닝(Java-ML)이라는또다른라이브러리를사용해데이터가져오기및내보내기,분류,피쳐선택작업을해본다.스탠포드분류기(StanfordClassifier)와MassiveOnlineAnalysis(MOA)를이용한기초적인분류도다룬다.
6장,'텍스트데이터에서정보추출하기'에서는텍스트데이터로부터정보를추출하기위해응용되는데이터과학도구들을학습한다.여기서는코어자바뿐만아니라정보추출및검색작업에머신러닝을적용하는OpenNLP,스탠포드CoreNLP,맬릿(Mallet),웨카등의유명한라이브러리도다룬다.
7장,'빅데이터다루기'에서는아파치머하웃(ApacheMahout)과스파크(Spark)MLib같은머신러닝을위한빅데이터플랫폼을살펴본다.
8장,'데이터를깊이있게학습하기'에서는자바를위한딥러닝라이브러리인DL4j를사용해딥러닝기초를학습할것이다.word2vec알고리즘,딥빌리프네트워크(deepbeliefnetworks),오토인코더(autoencoder)등도함께다룬다.
9장,'데이터시각화'에서는데이터를기반으로정보를시각적으로표현하는GRAL패키지를학습한다.수많은기능중에핵심적이고기본적인플롯(plot)기능을주로다룰것이다

★옮긴이의말★

데이터과학자들이일상적으로하는업무들을자바를통해수행할수있도록가이드하는책이다.다양한작업을단계별로따라가면서배울수있도록구성돼있다.먼저,데이터를분석하기전에가장많은시간이소요되는데이터수집과전처리를학습한다.다음으로아파치루씬을사용하여데이터를인덱싱하고검색하는방법을다루며,통계적인관점에서데이터를분석할수있는여러가지자바도구를소개하고있다.그리고요즘크게주목받는머신러닝과딥러닝의다양한기법을학습한다.또한비정형분석의핵심이라고할수있는텍스트분석도빼놓지않고다루고있다.자바를아파치스파크와연동하여빅데이터를처리하는방법도배울수있다.마지막으로분석한데이터를다양한플롯을통해시각화하는방법도소개한다.이책은자바로할수있는데이터과학의수많은과정을폭넓게그리고친절하게설명하고있다.데이터과학에관심있는자바사용자가입문서로활용하기좋은책이다.