메이저리그 야구 통계학 (빅데이터 분석과 머신러닝의 시작 R | 2 판)

메이저리그 야구 통계학 (빅데이터 분석과 머신러닝의 시작 R | 2 판)

$34.09
Description
페이스북, 트위터, 아마존과 같은 디지털 플랫폼이 생활 깊숙이 들어오면서 데이터 활용가치는 높아지지만, 수학과 통계 때문에 데이터 분석을 본격적으로 시작하지 못 하고 있다. 최근에는 정형화된 숫자 데이터를 넘어 문자 데이터에서 지금껏 포착할 수 없었던 새로운 의미를 추출해야 하는 어려움 때문에 빅데이터 분석 진입장벽은 또 한 단계 올라가는 중이다. 한국에서 가장 인기 있는 프로 스포츠인 야구로 빅데이터 분석을 다룬다면, 데이터가 새롭게 보일 수 있다. 메이저리그에서 지난 140년 동안 통계원의 손으로 시작해, 90년대 퀘스텍(QuesTec), 2000년대 PITCHf/x, 2010년대 아마존과 파트너쉽을 통한 트랙맨 플랫폼까지 상상 이상의 야구 데이터가 수집돼 왔다. 장구한 메이저리그 데이터의 힘을 빌려 전통적 분석인 상관관계 분석, 분산분석, 회귀분석, 로지스틱 회귀분석, 계량경제학 패널데이터 분석과 최근 머신러닝으로 다시 관심을 받고 있는 군집분석, 요인분석, 지도학습, 딥러닝 기반 자연어처리를 통해 야구 이야기를 모델링하고 직접 테스트한다. 모든 작업에는 학계와 산업계 분석 작업에 이미 중심이 된 오픈소스 통계 프로그램 R을 사용한다.
데이터 분석 목적은 데이터를 통해 현실을 모델링하고 예측하며, 데이터에 담긴 정보와 의미를 추출해 인간의 인지적 한계를 극복한 합리적 의사결정을 하는 것이다. 분석 목적을 달성하는 데 반드시 거쳐야 하는 전처리(preprocessing) 전략은 데이터 분석보다 더 중요하고 많은 아이디어를 요구한다. 1판에서는 경험 부족으로 놓쳤지만, 이후 논문을 출판하고 ‘마케팅과 경영전략을 위한 데이터 분석’을 강의하면서 중요하다고 느끼게 된 전처리 전략을 2판 곳곳에 추가했다. 또한 1판에서 부족했던 그래픽 분석 방법을 새롭게 업데이트했다. 2판에서의 가장 큰 변화는 정형화되지 않은 문자 데이터까지도 분석에 활용할 수 있도록 머신러닝을 추가한 점이다. 비지니스 환경은 정형화된 숫자 데이터로는 이해할 수 없는 한계를 경험하고 있으며, 사람들이 남긴 디지털 커뮤니케이션에서 의미 있는 신호를 포착하는 데 주목하고 있다. 핵심 기술은 머신러닝이며 그 시작을 야구데이터와 함께 할 수 있다.
저자

김재민

미시간오클랜드대학교비지니스스쿨경영학과조교수로재직중이다.학부생과MBA학생들을대상으로경영전략을강의하고있으며,경영전략과데이터분석의교집합을다루는마케팅과비지니스전략을위한데이터분석도강의하고있다.경영전략및기업의사회적책임과관련된연구로「JournalofBusinessResearch」,「EntrepreneurshipTheory&Practice」,「JournalofBusinessEthics」,「Organization&Environment」등에다수의논문이실렸다.최근연구에자연어처리를위한머신러닝을분석방법으로활용하고있으며,10년이상개인블로그blog.naver.com/ibuyworld를통해연구와영어강의에대한생각을공유하고있다

목차

1장.변수를알면분석모델을디자인할수있다
__데이터과학에서왜야구인가?
__분석공부중도에포기하지않는방법:나만의데이터만들기
__변수를알아야분석이보인다
____연속변수
____이산변수
____명목변수
____서열변수
__데이터구조를파악하다
__여러분이가지고있는변수의특징
____데이터중심화경향
____데이터의분포범위
__데이터는조작되지않아야한다
__데이터분석의완성:데이터가치사슬
__R스튜디오와친구들
____R스크립트
____R노트북
____R마크다운
____샤이니웹앱
__패키지없는R은앱없는스마트폰
__정리하며


2장.메이저리그데이터마이닝
__마이닝의개념
__간단한데이터내손으로직접만들기
__데이터를R로불러올때알아두면좋은정보
__인터넷에서만난팬그래프닷컴데이터를R로불러오기
__빅데이터에서필요한데이터분리하기
__작업했던코딩과데이터정보저장하기
__순서가같은테이블합치기:cbind()그리고rbind()
__순서가다른테이블합치기:merge()
__양적변수를명목변수로바꾸기
__괄호사용법
____소괄호()
____중괄호{}
____대괄호[]
__결측값제거하기
__조건문사용하기
__계속사용할테이블고정하기
__추가로공유하고싶은마이닝기법들
__정리하며


3장.선수의능력은어떻게측정할것인가?
__과학적측정
__측정의신뢰도
__영화〈머니볼〉에서보는신뢰도가높은지표의활용케이스
__측정의타당도
__능력과운의결과물:시즌성적
__공격지표들을이용한상관관계
__데이터에서룰을찾다:연관성분석
__선수와감독의인적상관성:네트워크분석
__기술통계와추정통계의매개:히스토그램은막대그래프가아니다
__정리하며


4장.상관관계는인과관계가아니다
__인과관계의필수조건
__확률로따지면말이야
__오류는모델링의꽃
____진실이존재하는신의영역
____예측모델과데이터가있는현실계
__확률과우도
__출루의조건:최대우도추정법
__정규분포:얼마나칠것인가?
____중심극한정리란?
____회귀분석에서는왜정규분포를사용하지않고스튜던트t분포를사용하는가?
__좋은예측모델구별법:표준오차
__팀타율1푼의가치는2천4백만달러?
__팀득점예측을위해만든추정모델해석하기
____조절된설명력
____모델전체의의미:F통곗값
____계수의p값:긍정오류의가능성유의확률
__게임당팀득점신뢰성있게예측하기
____신뢰구간
____예측구간
__정리하며


5장.비교와구분
__다른가?
__시각적비교
__모델에영향을주는이상치를찾아라
__메이저리그140년역사의원동력:표준편차의힘
____시즌타율3할의효과40년간의관찰:패키지plyr
____시즌타율표준편차가적을수록야구장에관중들이더모인다?
__실험군은아메리칸리그,대조군은내셔널리그
__그룹간비교시각화방법:패널차트구글트렌드와분산분석(ANOVA)연계
__데이터를분리해필요한부분만취하다:스트링변수
__비모수시대의그룹간비교
__긍정오류와부정오류
__긍정오류,부정오류,그리고판별분석
__내셔널리그,아메리칸리그,그리고판별분석
__지구에서우승할가능성,우승하지못할가능성:로지스틱회귀분석
__지구에서우승할팀,우승하지못할팀,그리고딥러닝
__자율학습을활용한군집분석
__정리하며


6장.모델링
__복잡한현실을수학으로모형화하고통계로증명하다
__2차함수사고하기
__고차함수사고하기
__논리와데이터를연결하다:모델선택
____단순선형회귀분석모델(simplelinearregression)에기반한주장
____다중선형회귀분석모델(multipleregression)에기반한주장
____고정효과모델(fixedeffectsmodel)에기반한주장
____다수준혼합모델(multilevelmixedeffectsmodel)에기반한주장
____시차변수를보유하는다수준혼합모델에기반한주장
____시차변수와자기상관을보유하는다수준혼합모델에기반한주장
__조건이포함되는모델링:조절변수
__리그별홈런의관중동원효과:리그의조절효과
__다수준혼합모델로메이저리그팀승수추정하기
__실험실없이실험환경통제하기:통제변수
__눈에보이지않는교란요인들잡아내기
__단순선형모델,임의효과모델,고정효과모델의비교
____단순선형모델
____임의효과모델
____고정효과모델
__정리하며


7장.머신러닝
__머신러닝:기계에답을주고인간은로직을얻는다
__최적의타순정하기
____케이스스터디
____기계가학습을하려면몇가지사전작업이필요하다
____베이즈룰
____머신러닝:데이터,정답지,그리고베이즈방식
__머신러닝의종류
__자연어처리와머신러닝
__지도학습으로문서분류하기
____지도학습으로분류모델개발하기
____분류결과
__기계는글의의미를이해하는가
__글과머신러닝의역사
__주변에흔한일반문서는어떻게처리할까


맺음말
__데이터과학을대하는자세.
__R을대하면서확장되는생각의범위
__라만데이터적용부분

출판사 서평

★이책에서다루는내용★

■야구이야기와통계프로그램R코드가동시에진행되는이해하기쉬운설명
■다양한목적의분석툴을야구에서발생하는특수상황에맞게적용
■연구질의에따른적합한데이터와분석방법선택을위한제안
■실제메이저리그대형데이터인라만(Lahman)데이터베이스활용
■대형데이터를분석목적에맞게전처리하는전략제시
■예측모델에서발생하는소음을제거하는모델링방법소개
■머신러닝을이용한자연어처리방법소개


★이책의대상독자★

■R에관심은있지만특별한동기가없어서본격적으로시작하지못했던R초보자
■학위과정을준비하고있거나학위과정에서통계분석을알고있어야하는독자
■직장에서매일다루는데이터를의미있게분석하고,해석하고싶은직장인
■야구를통해데이터과학을배우고싶은스포츠팬


★이책의구성★

이책은총7개장으로구성됐다.데이터와분석목적이일치하는가,측정하려는개념을측정하고있는가,과학적예측은어떻게하는가,다름과같음을구분할수있는가,분석결과를호도할수있는소음은잡아낼수있는가에대해R에서메이저리그경기데이터를사용해직접실험한결과를바탕으로설명하고각장에서코드를제시한다.
1장,‘변수를알면분석모델을디자인할수있다’에서는분석목적에맞는맞춤형데이터를만들기위해반드시알아야하는데이터구조와그중심에있는변수를메이저리그데이터베이스를통해이해한다.더불어데이터생성,가공,분석활동이동시에이뤄져야하는비즈니스환경에서분석플랫폼역할을하는R과오픈소스R활용이궁극적으로도달해야하는데이터가치사슬(datavaluechain)에대해설명한다.
2장,‘메이저리그데이터마이닝’에서는메이저리그팀과선수들의데이터를활용해빅데이터로부터특정데이터를추출하거나데이터의형태를변형해분석목적에맞게준비하는마이닝기법을배운다.특히원본데이터에어떠한영향도주지않고코드를통해변수를자유자재로변형하고2개이상의테이블을공통변수로결합함으로써제기된문제에유연하게답할수있는방법을제시한다.
3장,‘선수의능력은어떻게측정할것인가?’에서는데이터시각화의시작이자추정통계의기반이되는상관관계분석을활용해신뢰성과타당성을보유한야구지표의조건을파악한다.또한장타력과득점의상관성을보여주는산포도의다양한시각화방법,감독과선수의상관정도인인맥을보여주는네트워크분석,산포도개념을활용한메이저리그구장위치정보소개그리고조건에따라변하는다양한상관정도를한번에보여주는패널차트등분석을실행하는데필요한데이터구조와코딩방법을소개한다.
4장,‘상관관계는인과관계가아니다’에서는인과관계를모델링하는대표적인분석방법인선형회귀분석을실행하기위해빅데이터에서필요한양의표본을임의로추출해분석결과를해석하고예측하는방법을팀타율과팀득점을이용해자세히설명한다.특히예측에서반드시발생할수밖에없는다양한오류를소개하고,예측능력이좋은모델을구별하는기준이되는표준오차가팀득점예측에활용되는과정을코드를통해이해한다.
5장,‘비교와구분’에서는머신러닝이주목받으면서가치가높아지고있는분석을소개한다.전통적인t검증과분산분석(ANOVA)뿐만아니라비지도학습법인판별분석,요인분석,군집분석,신경망분석과지도학습법인로지스틱회귀분석을메이저리그팀들이소속된리그구분및지구(디비전)우승여부와연계해서학습한다.이과정에서이상치의확인과모델에미치는영향,프로스포츠에서선수성적표준편차가갖는의미그리고구글트렌드데이터를R에서활용하는방법을소개한다.
6장,‘모델링’에서는개념적관계를수학적모델로전환하는과정인모델링에서관측값이충분히많은빅데이터로인과관계를검증한다고해도활용할수있는변수가충분치않아측정되지않은제3의변수때문에관계는항상의심을받는다는사실에주목한다.메이저리그팀들의공격능력과팀성적간의인과관계를입증하기위해통제변수를개발하고눈에보이지않는교란변수를통제하는패널모델및다수준혼합모델을적용해인과관계를테스트하고모델적합성을평가하는방법을코드를통해배운다.어려운개념인모델링을야구와결합함으로써일반화된이론모델,검증할수있는수학모델,그리고현실의데이터를R에서결합하는방법을쉽게이해할수있다.
7장,‘머신러닝’은2판에서새로추가된장이다.기존대부분의분석들이행과열에맞춰진구조화된(structured)데이터라서사용하기에는편했지만그적용범위가좁았다.머신러닝의발전으로글이나그림같은구조화되지않은(unstructured)데이터가눈에보이지않아서숫자데이터만으로설명할수없는현상들을포착할수있게됐다.야구도마찬가지다.트랙맨시스템이생성하는선수들의기록은운동장에서만들어진결과물이다.하지만운동장밖에서존재하는선수들개개인의역사도팀성적과팀인기도에미칠수있는예측력이있지만,야구경험이없는분석가들은그역사가무엇인지모르며분석에익숙하지않은야구전문가들은그역사를데이터로모을수있는지모른다.이제는야구전문가의경험과분석가의분석역량을머신러닝으로연결해서어느팀이나할줄아는데이터야구를벗어나팀특유의머신러닝역량을만들어낼때다.