빅데이터 R 포인트 (빅데이터 분석 기본)

빅데이터 R 포인트 (빅데이터 분석 기본)

$19.69
Description
많은 변화가 우리에게 일어나고 있다. 이러한 변화의 중심에는 빅데이터가 자리 잡고 있다. 4차 산업혁명에서 가장 핵심이 ICBMA(Iot, Cloud, Bigdata, Mobile, AI)이다. 최근에는 ICBMA보다는 DNA(Data, network, AI)로 불리기도 한다. 이러한 핵심 기술들 중에서 가장 중요한 것이 바로 데이터라고 할 수 있다. 최근에 화두가 되고 있는 AI의 핵심 기술인 딥러닝과 머신러닝 등도 역시 데이터에 기반하고 있다.

일반적인 사람들은 빅데이터가 새로운 개념이라고 생각하지만, 기존부터 우리 주위에 존재했던 데이터들을 모아 놓은 것이다. 우리는 최근 화두가 되고 있는 4차 산업혁명이라고 불리는 Digital transformation 시대에서 지금보다 더욱 빠르게 변화하는 사회환경 속에서 살아가게 될 것이다. 이러한 변화의 중심 중의 하나는 바로 빅데이터이며, 분야와 상관없이 융합되어 중요도는 점점 높아질 것이다.

빅데이터에 혹은 Data scientist에 관심이 있는 사람들이 가장 어려워하는 것이 코딩과 통계이다. 실제로 R이라는 프로그램의 자체가 기존에 많이 사용하는 SPSS, AMOS, SAS보다 상대적으로 접근이나 활용이 더욱 어려운 면이 있다. 하지만 빅데이터에서 R을 사용하는 이유는, 무료이며 넓은 확장성과 사용자와 함께 진화하는 프로그램이기 때문이다. 그 외에도 본인이 조금만 노력을 한다면 구글 검색, Github, R bloggers, Youtube 등을 통해서 동영상 강의나 유저들의 글을 통해서 손쉽게 궁금증을 해결할 수 있다.

우리가 빅데이터를 다루기 위해서는 코딩이나 통계의 모든 이론을 습득하거나 전공을 할 필요는 없다. 대신 실제 방대한 데이터의 분석을 통해서 유용한 정보를 찾아낼 수 있도록 기초적인 통계에 대한 지식은 필요하다. 본 교재는 ‘빅데이터 분석’에 관한 기본서로서 빅데이터와 기초통계의 이론, R시작하기, 기초통계, 고급통계, 시각화 등을 학습하게 된다. 기본편은 기존에 접근하기 어려웠던 R이라는 프로그램을 쉽게 접근할 수 있도록 도움을 주는 것과 함께 통계에 대한 기초지식을 같이 습득할 수 있도록 도움을 줄 것이다. 앞으로 2권에서는 기본편에서 학습한 것을 기반으로 빅데이터 분석을 위한 다양한 활용에 대해 학습을 하게 될 것이다.

본 교재는 빅데이터 분야의 전문 총서로서 빅데이터 분야의 발전에 이바지할 것으로 확신하면서도, 동태적으로 진화 발전하고 있기 때문에 독자 및 전문가들의 조언과 지적, 연구결과를 지속적으로 반영하고자 노력할 것이다.
저자

김진화

한국소프트웨어기술인협회빅데이터교수/인증사업실장이다.성균관대학교박사후연구원,(재)천안과학산업진흥원전략기획본부장,선문대학교SW융합학부교수,성균관대학교경영학과초빙교수,충북대학교경영정보학과연구교수,(사)한국디지털정책학회감사,전자상거래관리사1,2급출제및감수위원을역임했다.

목차

제1장빅데이터
 1.빅데이터란무엇인가?
 2.빅데이터와통계의관계
 3.빅데이터에서R이중요한이유
제2장R을시작하기전에이것만은알고시작하자(기초통계이론)
 1)자료의종류
 2)데이터의종류
 3)모집단과표본추출
 4)기술통계와추측통계
 5)귀무가설과대립가설
 6)신뢰구간(양측검정,단측검정)
 7)1종오류,2종오류
 8)중심극한정리(CentralLimitTheorem,CLT)
 9)유의수준과유의확률
 10)정규분포
 11)자료특성에따른분석방법과통계량
 12)독립변수와종속변수
 13)모수통계와비모수통계
 14)확률과통계
제3장R시작하기
 1.R은무엇인가?
 2.설치&설정방법
  1)R설치및실행
  2)RStudio설치및실행
  3)JDK설치
 3.R기초
  1)변수
  2)자료구조
  3)데이터저장&불러오기
제4장기초통계
 1.기술통계분석(descriptivestatistics)
 2.카이스퀘어검정&교차분석
  1)적합도검정(goodnessoffittest)
  2)독립성검정문제
 3.비율검정
  1)단일집단분석-이항분포검정(binominaltest)
  2)두집단비율차이검정(twosampleproportiontest)
 4.t검정
  1)일표본t-test(onesamplet-test)
  2)독립표본t-test(Independentsamplest-test)
  3)대응표본t-test(pairedsamplest-test)
 5.상관관계분석
 6.신뢰도
  1)신뢰도분석(ReliabilityAnalysis)
제5장고급통계(기초통계+)
 1.회귀분석(regressionanalysis)
  1)단순회귀분석(simpleregression)
  2)다중회귀분석(multipleregressionanalysis)
 2.분산분석(anova)
  1)One-wayANOVA(일원배치분산분석)
 3.군집분석(regressionanalysis)
  1)최장연결법(CompleteLinkageMethod)
  2)최단연결법(SingleLinkageMethod)
  3)와드연결법(Ward'sMethod)
  4)평균연결법(AverageMethod)
  5)K-means
 4.시계열분석
  1)장기추세선의제거
  2)시계열을이용한예측
제6장시각화
 1.그래프활용
  1)산점도
  2)점의종류(pch)
 2.ggplot2
  1)ggplot2
  2)ggplot2를사용한시각화
  3)회귀곡선+geom_smooth()함수
  4)그래프색변경
  5)실습(따라해보자)
 3.googleVis
  1)googleVis란?