데이터 분석과 비판적 사고 : 양적 추론과 분석의 길잡이
에단부에노데메스키타,앤서니파울러
저자:에단부에노데메스키타(EthanBuenodeMesquita)
시카고대학교의해리스공공정책스쿨(HarrisSchoolofPublicPolicy)의시드니스타인(SydneyStein)교수이자부학장이다.『PoliticalEconomyforPublicPolicy』(PrincetonUniversityPress,2016)의저자이며,『TheoryandCredibility:IntegratingTheoreticalandEmpiricalSocialScience』(PrincetonUniversityPress,2021)의공동저자이기도하다.
저자:앤서니파울러(AnthonyFowler)
시카고대학교의해리스공공정책스쿨교수다.
역자:임형준
전산학전공으로학부와석사과정을졸업했다.10년간개발자로서검색엔진을개발하다가데이터를다루고싶어서초보데이터엔지니어로전직했다.데이터분석이라는바다에떠다니는수많은훌륭한시스템과분석도구에감탄하고탐색하고방황하면서나아갈길을찾는중이다.『정보검색의이론과실제』(에이콘출판사,2021)를공동번역했다.
01장.데이터기반시대에명확하게사고하기
__1장에서다루는내용
__들어가며
__경고성일화
____에이브에게내린성급한진단
____시민저항운동
____깨진유리창정책
__사고와데이터는서로보완하지,대체하지않는다
__읽을거리
1부―공통언어구축하기
02장.상관관계:무엇이며어디에쓰는가?
__2장에서다루는내용
__들어가며
__상관관계란무엇인가?
____단순사실인가상관관계인가?
__상관관계는어디에쓰나?
____관계서술
____예측
____인과추론
__상관관계측정
____평균,분산,표준편차
____공분산
____상관계수
____회귀선기울기
____모집단과표본
__선형성에관한직설
__정리
__핵심용어
__연습문제
__읽을거리
03장.인과관계:무엇이며어디에쓰는가?
__3장에서다루는내용
__들어가며
__인과관계란무엇인가?
__잠재적결과와반사실성
__인과관계는어디에쓰나?
__인과추론의근본적인문제
__개념적쟁점
____원인이무엇인가?
____인과관계와반례
____인과관계와법률
____인과관계가시간을거슬러올라갈수있나?
____인과관계는물리적인연결고리가있어야하나?
____인과관계가반드시상관관계를내포하지는않는다
__정리
__핵심용어
__연습문제
__읽을거리
2부―관계가존재하는가?
04장.상관관계는변이가있어야한다
__4장에서다루는내용
__들어가며
__종속변수의취사선택
____1만시간법칙
____젊은세대의타락
____고등학교중퇴
____자살공격
__세상은사람들이종속변수를취사선택하게끔이뤄졌다
____의사눈에는환자만보인다
____사후분석
____인생의조언
__정리
__핵심용어
__연습문제
__읽을거리
05장.관계서술과예측에쓰는회귀
__5장에서다루는내용
__들어가며
__회귀기초
__선형회귀,비선형데이터
__과적합문제
____대통령선거예측
__회귀결과를어떻게보여줄까
__회귀의간략한학문적역사
__정리
__핵심용어
__연습문제
__읽을거리
06장.표본,불확실성,통계적추론
__6장에서다루는내용
__들어가며
__추정
__왜추정치는추정대상과다를까?
____편향
____잡음
__어떤추정량이좋은가?
__정밀도정량화하기
____표준오차
____작은표본과극단적인관찰값
____신뢰구간
__통계적추론과가설검정
____가설검정
____통계적유의성
__관계에관한통계적추론
__전체모집단데이터가있으면어떻게할까?
__실질적유의성대통계적유의
____소셜미디어와투표
____제2차개혁법
__정리
__핵심용어
__연습문제
__읽을거리
07장.과도한비교,부실한보고
__7장에서다루는내용
__들어가며
____문어가축구전문가가되다?
__출판편향
____p-해킹
____p-검열
__대부분의과학적'사실'이거짓일까?
____초감각적지각
____투표독려
____p-해킹수사대
__가능성있는해법
____유의성문턱값을줄여라
____복수검정에서p-값을조정하라
____통계적유의성에너무집착하지마라
____사전등록
____재현
____중요하고타당한가설을검증하라
__학문너머로
____슈퍼스타
__정리
__핵심용어
__연습문제
__읽을거리
08장.평균으로의복귀
__8장에서다루는내용
__들어가며
____진실이흐릿해진다?
__프랜시스골턴과평범함으로의회귀
__평균으로의복귀는중력이아니다
__도움구하기
____무릎수술이효과가있나?
__평균복귀,위약효과,우주의습관화
____위약효과
____우주의습관화해설
____우주의습관화와유전학
__믿음은평균으로복귀하지않는다
__정리
__핵심용어
__연습문제
__읽을거리
3부―인과관계인가?
09장,어째서상관관계는인과관계를내포하지않는가
__9장에서다루는내용
__들어가며
____대안학교
__잠재적결과를명확하게이해하기
__편향의근원
____교란변수
____역인과관계
____1만시간법칙다시보기
____다이어트소다
__교란변수와역인과관계는어떻게다른가?
____선거운동비용
__편향의방향(부호)정하기
____피임과HIV
__기작대교란변수
__편향과잡음에관해명확하게사고하기
__정리
__핵심용어
__연습문제
__읽을거리
10장.교란변수통제
__10장에서다루는내용
__들어가며
____의회의투표관리
____이종조치효과에관한단상
__회귀파헤치기
__회귀에서어떻게통제하나?
__통제와인과관계
____소셜미디어가해로운가?
__회귀표읽기
__교란변수통제대기작
__마법은없다
__정리
__핵심용어
__연습문제
__읽을거리
11장.무작위실험
__11장에서다루는내용
__들어가며
____모유수유
__무작위와인과추론
__실험에서의추정과추론
____표준오차
____가설검정
__실험에서나타나는문제점들
____불응과도구변수
____우연성불균형
____검정력부족
____이탈
____간섭
__자연실험
____군복무와미래소득
__정리
__핵심용어
__연습문제
__읽을거리
12장.불연속회귀설계
__12장에서다루는내용
__들어가며
__불연속회귀설계의구현방법
____과격파와중도파중당선가능성이높은쪽은?
__문턱값지점의연속성
____선거에관한불연속회귀설계에서도연속성이유지될까?
__불응과흐릿한불연속회귀
____베트남전의폭격
__동기와성공
__정리
__핵심용어
__연습문제
__읽을거리
13장.이중차분법설계
__13장에서다루는내용
__들어가며
__평행추세
__두대상과두시기
____실업과최저임금
__N개의대상,두시기
____텔레비전시청이아이들에게해로운가?
__N개의대상,N개의시기
____피임그리고성별에따른임금차이
__유용한진단
____신문의지지가투표결정에영향을미치는가?
____비만은전염되나?
__이중차분법으로결과검증하기
____민주적평화
__정리
__핵심용어
__연습문제
__읽을거리
14장.기작평가
__14장에서다루는내용
__들어가며
__인과매개분석
__중간결과
____인지적행동치료와위험에처한라이베리아의청년들
__독립된이론적예측
____유권자들이여성후보를차별하는가?
__설계로기작을시험하기
____사회적압박과투표
__기작구분하기
____물가폭등과극심한갈등
__정리
__핵심용어
__연습문제
__읽을거리
4부―정보로부터의사결정에이르기까지
15장통계를실체로
__15장에서다루는내용
__들어가며
__올바른단위는무엇인가?
____갤런당마일과마일당갤런
____퍼센트대퍼센트포인트
__데이터시각화
____정책선호도와남벌전략
____데이터시각화의경험법칙
__통계에서믿음으로:베이즈법칙
____베이즈법칙
____정보,믿음,사전확률,사후확률
____에이브의소아지방변증돌아보기
____공항에서테러리스트탐지하기
____베이즈법칙과양적분석
__비용과편익기대치
____자주또는정확하게검사하기
__정리
__핵심용어
__연습문제
__읽을거리
16장.목적에맞게측정하라
__16장에서다루는내용
__들어가며
__엉뚱한결과나조치를측정하기
____일부분만측정
____중간결과
____부정확한목적
__표본은적절한가?
____외적타당성
____표본선택
__전략적적응과관계변화
____등불세와창문세
____야구의수비시프트
____마약과의전쟁
__정리
__핵심용어
__연습문제
__읽을거리
17장.정량화의한계
__17장에서다루는내용
__들어가며
__증거가부족할때의의사결정
____비용편익분석과환경규제
____치실사용과마스크착용
__정량화와가치
____정량적도구가어떻게가치를몰래들이미는가
____정량화는어떻게우리의가치를형성하는가
__명확히사고하고다른사람들도따르도록돕자
__연습문제
__읽을거리
이책에서다루는내용
통계기법보다비판적사고에초점을두고데이터과학을흥미롭게소개한다.데이터과학이나통계입문서에서복잡한수학정리를증명하거나뜻도잘모르는용어와공식을외우도록하는일은피해야하는데,현재정량분석입문교재는대부분이런내용만강조한다.반면에이책은무엇보다도비판적사고와개념이해에집중해서,학생들로하여금살면서마주칠정량적정보와논증에있어서더나은소비자이자분석가가되도록가르친다.
특히데이터에서관찰한어떤관계가현실에존재하는관계를반영하는지판단하는방법,정말그렇다면그관계가인과관계인지파악하는방법,그리고질문에답하는데가장유용한비교를하는방법을설명한다.또한,정량적증거를들어서주장하는사람에게어떤질문을해야하는지,어떤통계가특히유용하거나판단을그르치는지알려주며,정량적증거가어떻게의사결정에영향을미쳐야하거나미치면안되는지,그리고데이터뿐만아니라윤리적가치도함께고려해서더나은의사결정을하는방법을가르친다.다양한실제사례를통해서,선거,시민저항,범죄,테러,금융위기,건강보험,스포츠,음악,우주여행과같이폭넓은주제에서사고도구를문제에응용하는방법을보여준다.뿐만아니라,데이터기반시대의여러이점에도불구하고,어째서데이터가인간의사고를대체하지못하는지보여준다.
-데이터과학,통계학,정치학,경제학,심리학,사회학,공공정책등의분야에모두적용가능한정량분석법개론
-표본,가설검정,베이즈추론,회귀,실험,도구변수,이중차분법,회귀불연속성을포함한데이터분석의기본도구
-다양한주제에서얻은실제사례와데이터
-데이터를다루는연습문제
이책의구성
1부에서는용어의의미를구축하며,특히상관관계와인과관계를양적분석의초석으로서강조한다.이를바탕으로2부에서는데이터와증거자료를사용해서세상에존재하는여러특성사이에상관관계나인과관계가존재하는지여부를판별하는방법을다룰것이다.4장은종속변수를고르는과정에서흔히범하는실수를소개하고,변이를고려하지않고상관관계를구축할수없는이유를보여주고,이런실수가큰영향을미친무수한사례를살펴본다.5장은회귀를시각적으로나타내기에집중해,상관관계를측정하는방법을다룬다.6장은통계적유의성과가설검정을설명하고,이책에서여러번나올공식을소개한다.
4장을읽어도데이터로부터관계를수립하는데있어서명확한사고의중요성이충분히전달되지않았다면,7장은p-해킹문제,출판편향,그밖에관련있는주제를논의함으로써이를확실히한다.마지막으로,8장은평균으로의회귀라는생소한주제를다루고,이를앞서설명한출판편향과결합해서재현성위기와더불어,흔히나타나는과학적추정치가시간이흐르면서감소하는현상을보여준다.
3부에서는인과추론으로넘어가서세상사에개입하는의사결정에있어서인과관계에관한지식이얼마나중요한지일깨운다.9장은교란변수와역인과관계를논하면서,상관관계가반드시인과관계를내포하지는않는이유를설명한다.10장은통계분야의통제를다루고,회귀의관점에서이를도식화한다.11장부터13장까지는인과관계를학습하려는학자들이어떻게연구방식을설계하는지개괄적으로소개한다.11장은무작위실험과자연실험두가지를모두다루는데,불응문제를다룰방법인도구변수를소개한다.12장과13장은회귀불연속과이중차분법설계를차례로다룬다.14장에서는인과관계기작학습에따르는어려움을논의하면서3부를마친다.
4부에서는인과관계가끝이아님을지적한다.인과적효과에관한지식이충분해도그것만으로정량화된정보를활용해서의사결정을잘하는방법을터득했다고보기는어렵다.15장은여러분이어떤정량화된정보가어떤질문에대한답을주는지를얼마나쉽게헷갈리는지지적하고,이런실수를피하게끔정보의세부사항으로부터핵심을추려내도록독려한다.이과정에서베이즈법칙(Bayes’rule)을소개한다.16장은측정,외부타당성,외삽법(extrapolation)을다루며,표본선택편향도함께논의한다.마지막으로,17장에서는정량분석을아무리명확하게하더라도의사결정과정에서겪는근본적인한계를마주한다.
지은이의말
우리는데이터기반시대에살고있다.구글(Google)의전CEO인에릭슈미트(EricSchmidt)는오늘날이틀마다생산되는데이터의양이태초부터2003년까지생산된양과맞먹는다고말했다.이모든정보는우리의삶을더낫게만들힘이있지만,이힘을제대로쓰려면데이터기반세상을명확히사고하는법을배워야한다.명확한사고는어렵고,특히데이터와데이터분석을둘러싼온갖기술적세부사항이얽히면더욱그렇다.
데이터기반시대에명확하게사고하려면무엇보다도개념과질문에집중해야한다.세부기법은비록중요하긴하지만어디까지나개념과질문을뒷받침할뿐이다.안타깝게도많은사람이데이터를배우는통계학이나양적추론수업에서는정반대로기술적세부사항에집중한다.학생들은수학공식을배우고통계적절차의이름을외우고자신들이무엇을,왜하는지명확하게생각해볼기회없이숫자만주물럭거린다.이런접근방식은수학에익숙한사람들에겐괜찮다.그렇지만대다수의사람들에겐역효과가난다는것이우리의견이다.학생들이세부기법을익히느라생각하기를멈추고외우기시작하면나무만보고숲은못보게된다.게다가재미도없다.
우리는이와반대로개념이해에집중하겠다.여러분이데이터를분석할때세상의어떤특성을비교하는가?서로다른종류의비교는어떤질문에대답할수있는가?풀고자하는문제에맞는질문과비교대상을알고있는가?그럴듯하게들리는대답이어째서실제로는방향이잘못된경우가생길까?좀더유익한답변을얻으려면어떤창의적인접근방법을쓸수있을까?
세부기법이중요하지않다는얘기가아니다.다만개념이해와명확한사고없이기술만익히면재앙을부른다.여러분이일단양적분석에관해명확하게사고하고,일단주의깊고정밀한질문을던지는일이왜중요한지이해한다면분석기술은자연스럽게따라온다.게다가이편이더재미있다.
이런점을고려해서데이터분석,통계학,기타정량적방법론의사전지식없이도이책을읽을수있도록썼다.개념적사고가더중요하기때문에되도록일상언어로설명하고기술관련내용을(완전히배제하지는않았지만)최소화했다.이책이양적분석을고찰하고실행하는방법의길잡이가되길바란다.누구나정량화된정보의세련된소비자가(심지어생산자도)될수있다고믿는다.단지인내심,끈기,많은노력,세부기법이명확한사고를몰아내지않도록할굳건한의지가있으면된다.
데이터분석전문가가되는사람은그리많지않다.다만여러분이데이터분석가든아니든이책에서배운기술을다양한방식으로활용할것이라고자신한다.여러분중에는양적분석가를고용했거나그들과협업하는사람도많을것이다.그리고여러분모두가논문,뉴스기사,업무브리핑등을읽을터이고,이글을쓴저자는양적분석을활용해서어떤결론을납득시키려고할것이다.이책은올바른질문을던지고,필요하다면회의적으로바라보고,유용한증거와오도하는증거를구분하기에필요한명확한사고능력을갖추게해줄것이다.
옮긴이의말
빅데이터라는용어가식상하게느껴지는시대다.데이터의양은물론이고분석도구와활용범위또한하루가다르게늘어간다.게다가인공지능의대두로빅데이터의효용성이더욱부각되는모습이다.
저자들이이책을완성한이후로도인공지능은장족의발전을거듭했고,이제는사람의자리를위협할지도모른다는위기감마저느껴질정도다.대량의데이터를처리하는능력을따지면사람은진작부터컴퓨터의상대가아니었다.더욱이최근의인공지능은기계적인분석을넘어서인간만의영역으로여기던추론능력까지선보이기시작했다.그렇다면우리는과연조만간모든결정을프로그램에맡기고그저따르는존재가될까?
영화〈쇼생크탈출〉에서주인공앤디듀프레인은이렇게말했다.희망은좋은거죠.가장소중한것일지도몰라요.그리고좋은것은절대사라지지않아요.
올바른사고는사람이지닌좋은능력이다.인공지능이정말로대단한능력을보여주고사람이하던많은일을대신하더라도,절대사라지지않을소중한희망이겠다.물론거저얻어지는열매는아니며부단한노력이필요하다.아무쪼록여러분이올바르게사고하는능력을가꿔나가는데이책이길잡이가되길바란다.
_임형준