이책에서다루는내용
통계기법보다비판적사고에초점을두고데이터과학을흥미롭게소개한다.데이터과학이나통계입문서에서복잡한수학정리를증명하거나뜻도잘모르는용어와공식을외우도록하는일은피해야하는데,현재정량분석입문교재는대부분이런내용만강조한다.반면에이책은무엇보다도비판적사고와개념이해에집중해서,학생들로하여금살면서마주칠정량적정보와논증에있어서더나은소비자이자분석가가되도록가르친다.
특히데이터에서관찰한어떤관계가현실에존재하는관계를반영하는지판단하는방법,정말그렇다면그관계가인과관계인지파악하는방법,그리고질문에답하는데가장유용한비교를하는방법을설명한다.또한,정량적증거를들어서주장하는사람에게어떤질문을해야하는지,어떤통계가특히유용하거나판단을그르치는지알려주며,정량적증거가어떻게의사결정에영향을미쳐야하거나미치면안되는지,그리고데이터뿐만아니라윤리적가치도함께고려해서더나은의사결정을하는방법을가르친다.다양한실제사례를통해서,선거,시민저항,범죄,테러,금융위기,건강보험,스포츠,음악,우주여행과같이폭넓은주제에서사고도구를문제에응용하는방법을보여준다.뿐만아니라,데이터기반시대의여러이점에도불구하고,어째서데이터가인간의사고를대체하지못하는지보여준다.
-데이터과학,통계학,정치학,경제학,심리학,사회학,공공정책등의분야에모두적용가능한정량분석법개론
-표본,가설검정,베이즈추론,회귀,실험,도구변수,이중차분법,회귀불연속성을포함한데이터분석의기본도구
-다양한주제에서얻은실제사례와데이터
-데이터를다루는연습문제
이책의구성
1부에서는용어의의미를구축하며,특히상관관계와인과관계를양적분석의초석으로서강조한다.이를바탕으로2부에서는데이터와증거자료를사용해서세상에존재하는여러특성사이에상관관계나인과관계가존재하는지여부를판별하는방법을다룰것이다.4장은종속변수를고르는과정에서흔히범하는실수를소개하고,변이를고려하지않고상관관계를구축할수없는이유를보여주고,이런실수가큰영향을미친무수한사례를살펴본다.5장은회귀를시각적으로나타내기에집중해,상관관계를측정하는방법을다룬다.6장은통계적유의성과가설검정을설명하고,이책에서여러번나올공식을소개한다.
4장을읽어도데이터로부터관계를수립하는데있어서명확한사고의중요성이충분히전달되지않았다면,7장은p-해킹문제,출판편향,그밖에관련있는주제를논의함으로써이를확실히한다.마지막으로,8장은평균으로의회귀라는생소한주제를다루고,이를앞서설명한출판편향과결합해서재현성위기와더불어,흔히나타나는과학적추정치가시간이흐르면서감소하는현상을보여준다.
3부에서는인과추론으로넘어가서세상사에개입하는의사결정에있어서인과관계에관한지식이얼마나중요한지일깨운다.9장은교란변수와역인과관계를논하면서,상관관계가반드시인과관계를내포하지는않는이유를설명한다.10장은통계분야의통제를다루고,회귀의관점에서이를도식화한다.11장부터13장까지는인과관계를학습하려는학자들이어떻게연구방식을설계하는지개괄적으로소개한다.11장은무작위실험과자연실험두가지를모두다루는데,불응문제를다룰방법인도구변수를소개한다.12장과13장은회귀불연속과이중차분법설계를차례로다룬다.14장에서는인과관계기작학습에따르는어려움을논의하면서3부를마친다.
4부에서는인과관계가끝이아님을지적한다.인과적효과에관한지식이충분해도그것만으로정량화된정보를활용해서의사결정을잘하는방법을터득했다고보기는어렵다.15장은여러분이어떤정량화된정보가어떤질문에대한답을주는지를얼마나쉽게헷갈리는지지적하고,이런실수를피하게끔정보의세부사항으로부터핵심을추려내도록독려한다.이과정에서베이즈법칙(Bayes’rule)을소개한다.16장은측정,외부타당성,외삽법(extrapolation)을다루며,표본선택편향도함께논의한다.마지막으로,17장에서는정량분석을아무리명확하게하더라도의사결정과정에서겪는근본적인한계를마주한다.
지은이의말
우리는데이터기반시대에살고있다.구글(Google)의전CEO인에릭슈미트(EricSchmidt)는오늘날이틀마다생산되는데이터의양이태초부터2003년까지생산된양과맞먹는다고말했다.이모든정보는우리의삶을더낫게만들힘이있지만,이힘을제대로쓰려면데이터기반세상을명확히사고하는법을배워야한다.명확한사고는어렵고,특히데이터와데이터분석을둘러싼온갖기술적세부사항이얽히면더욱그렇다.
데이터기반시대에명확하게사고하려면무엇보다도개념과질문에집중해야한다.세부기법은비록중요하긴하지만어디까지나개념과질문을뒷받침할뿐이다.안타깝게도많은사람이데이터를배우는통계학이나양적추론수업에서는정반대로기술적세부사항에집중한다.학생들은수학공식을배우고통계적절차의이름을외우고자신들이무엇을,왜하는지명확하게생각해볼기회없이숫자만주물럭거린다.이런접근방식은수학에익숙한사람들에겐괜찮다.그렇지만대다수의사람들에겐역효과가난다는것이우리의견이다.학생들이세부기법을익히느라생각하기를멈추고외우기시작하면나무만보고숲은못보게된다.게다가재미도없다.
우리는이와반대로개념이해에집중하겠다.여러분이데이터를분석할때세상의어떤특성을비교하는가?서로다른종류의비교는어떤질문에대답할수있는가?풀고자하는문제에맞는질문과비교대상을알고있는가?그럴듯하게들리는대답이어째서실제로는방향이잘못된경우가생길까?좀더유익한답변을얻으려면어떤창의적인접근방법을쓸수있을까?
세부기법이중요하지않다는얘기가아니다.다만개념이해와명확한사고없이기술만익히면재앙을부른다.여러분이일단양적분석에관해명확하게사고하고,일단주의깊고정밀한질문을던지는일이왜중요한지이해한다면분석기술은자연스럽게따라온다.게다가이편이더재미있다.
이런점을고려해서데이터분석,통계학,기타정량적방법론의사전지식없이도이책을읽을수있도록썼다.개념적사고가더중요하기때문에되도록일상언어로설명하고기술관련내용을(완전히배제하지는않았지만)최소화했다.이책이양적분석을고찰하고실행하는방법의길잡이가되길바란다.누구나정량화된정보의세련된소비자가(심지어생산자도)될수있다고믿는다.단지인내심,끈기,많은노력,세부기법이명확한사고를몰아내지않도록할굳건한의지가있으면된다.
데이터분석전문가가되는사람은그리많지않다.다만여러분이데이터분석가든아니든이책에서배운기술을다양한방식으로활용할것이라고자신한다.여러분중에는양적분석가를고용했거나그들과협업하는사람도많을것이다.그리고여러분모두가논문,뉴스기사,업무브리핑등을읽을터이고,이글을쓴저자는양적분석을활용해서어떤결론을납득시키려고할것이다.이책은올바른질문을던지고,필요하다면회의적으로바라보고,유용한증거와오도하는증거를구분하기에필요한명확한사고능력을갖추게해줄것이다.
옮긴이의말
빅데이터라는용어가식상하게느껴지는시대다.데이터의양은물론이고분석도구와활용범위또한하루가다르게늘어간다.게다가인공지능의대두로빅데이터의효용성이더욱부각되는모습이다.
저자들이이책을완성한이후로도인공지능은장족의발전을거듭했고,이제는사람의자리를위협할지도모른다는위기감마저느껴질정도다.대량의데이터를처리하는능력을따지면사람은진작부터컴퓨터의상대가아니었다.더욱이최근의인공지능은기계적인분석을넘어서인간만의영역으로여기던추론능력까지선보이기시작했다.그렇다면우리는과연조만간모든결정을프로그램에맡기고그저따르는존재가될까?
영화〈쇼생크탈출〉에서주인공앤디듀프레인은이렇게말했다.희망은좋은거죠.가장소중한것일지도몰라요.그리고좋은것은절대사라지지않아요.
올바른사고는사람이지닌좋은능력이다.인공지능이정말로대단한능력을보여주고사람이하던많은일을대신하더라도,절대사라지지않을소중한희망이겠다.물론거저얻어지는열매는아니며부단한노력이필요하다.아무쪼록여러분이올바르게사고하는능력을가꿔나가는데이책이길잡이가되길바란다.
_임형준