다크 데이터 : 보이지 않는 데이터가 세상을 지배한다

다크 데이터 : 보이지 않는 데이터가 세상을 지배한다

$19.38
저자

데이비드핸드

저자:데이비드핸드DavidHand
옥스퍼드대학교를졸업했으며세계적인이공계명문대학인임페리얼칼리지런던의수학과명예교수겸선임연구원이다.2002년통계학계에서가장권위있는상인가이메달GuyMedal을받았고,2003년에는영국학사원의연구원으로선출되었다.2008년부터왕립통계학회회장을지냈으며그동안의연구업적으로2013년대영제국훈장을받았다.유럽에서수익률이가장높은알고리즘매매헤지펀드중하나인윈턴캐피털매니지먼트WintonCapitalManagement의고문이기도하다.
‘우연한일들’에숨어있는법칙을다룬핸드의대표작《신은주사위놀이를하지않는다TheImprobabilityPrinciple》는통계학서적으로는이례적으로출간즉시아마존과《뉴욕타임스》종합베스트셀러가되었으며,《워싱턴포스트》《허핑턴포스트》등유력매체에서크게호평을얻었다.
전작《신은주사위놀이를하지않는다》에서‘일어날가능성이거의없는사건들’을다뤘다면,《다크데이터》에서는‘우리가모른다는것을아는것’과‘우리가모른다는것조차모르는것’들을대상으로삼아,빅데이터시대문제해결의본질적맹점을확인하고또보완한다.
데이비드핸드는이밖에도《정보세대:데이터는어떻게우리의세계를지배하는가InformationGeneration:HowDataRuleOurWorldandStatistics》를비롯해7권의책과300편넘는논문을발표했으며,까다로운통계학지식을우리일상과연관지어대중에게알기쉽게전달하는강연활동에도매진하고있다.

역자:노태복
한양대학교전자공학과를졸업했다.환경과생명운동관련시민단체에서해외교류업무를맡던중번역가의길로들어섰다.과학과인문의경계에서즐겁게노니는책들그리고생태적감수성을일깨우는책들에관심이많다.옮긴책으로《수학의쓸모》《아인슈타인이괴델과함께걸을때》《부의원칙》《생각한다면과학자처럼》등이있다.저글링을하면서즐겁게살고있다.

목차

1부
다크데이터는어떻게생겨나고
어떤결과를초래하는가

1장.
다크데이터:보이지않는것이이세계를만든다
보이지않는위험,다크데이터
데이터를다갖고있다고생각하는군요?
아무일도안생겨서무시해버릴때생기는일
다크데이터의위력
다크데이터는언제어디에나있다

2장.
다크데이터찾아내기:우리가모은것과모으지않은것
데이터를얻는3가지방식과다크데이터의출현
데이터잔해에서얻는다크데이터
설문조사에서생기는다크데이터
실험데이터에도다크데이터가끼어든다
인간적취약점에주의하시라

3장.
다크데이터와정의:알고자하는것이정확히무엇인가?
엉뚱한것을측정해버렸다:정의가달라질때
‘모든’것을측정할수는없다:심슨의역설
질병검진프로그램의취약성
과거성과를보고선택할때의다크데이터

4장.
의도하지않은다크데이터:말과행동이따로놀때
어디까지정확해야하지?
요약은필연적으로다크데이터를만든다
인간이니까생기는오류
측정도구의한계
데이터세트를통합할때의문제

5장.
전략적다크데이터:게이밍,피드백,정보비대칭
게이밍:빈틈을이용해이득을얻다
피드백:피드백이데이터를왜곡시킬때
정보비대칭:중고차시장에서무슨일이일어났나
다크데이터가알고리즘에끼치는영향

6장.
고의적다크데이터:사기와기만
사기의세계:핵심은데이터숨기기다
신원도용과인터넷사기:‘자칼의날’
계속진화하는개인금융사기
금융시장사기와내부자거래
보험사기:고객을속이거나보험사를속이거나
그밖의사기:돈세탁,다단계사기,횡령

7장.
다크데이터와과학:발견의본질
과학의본질:검증체계로서의과학
내가그걸알았더라면!:과학자들의흑역사
우연히만난다크데이터:과학자들의행운
반복실험을통한재현:과학연구의다크데이터
사실을감추는방법들
철회
출처와신뢰성:“누가그러던가요?”

2부
다크데이터에빛을비추고이용하는법

8장.
다크데이터다루기:빛을비추기
희망은있다
관측데이터를빠진데이터와연결하기
3가지데이터누락메커니즘
이미가진데이터를활용하는법
생존분석문제:당신이먼저죽는다면?
대치법:빠진데이터를채워넣기
반복:최대가능도모형과EM알고리즘
데이터오류에대처하는방법

9장.
다크데이터로이득을얻는법:질문을바꿔보자
데이터를숨기는게이득이될때
무작위대조군시험:데이터를모두에게숨겨라
시뮬레이션:일어났을수도있는일
전략적으로복제된데이터
베이즈사전확률:가상의데이터
사생활보호와기밀유지
데이터를다크상태로수집하기

10장.
다크데이터분류법:미로속으로난길
다크데이터의15가지유형
새롭게조명하기

출판사 서평

의료통계,금융상품설계,인구조사,실험설계에서
금융사기감지,투자예측,질병진단,개인정보보호까지
‘다크데이터’의함정을피하고위험을기회로만드는법

《다크데이터》는우리가누락된데이터를알아차리지못하게되는과정들,그리고그로인해우리가어떻게잘못되고위험하고심지어파국에이를수도있는결론과행위에이르게되는지다각도에서탐사한다.우주왕복선챌린저호폭발사고부터복잡한금융사기와AI알고리즘까지,현실에서만날수있는다양한사례를면밀하게파고든다.데이비드핸드는우리가다크데이터를분별하고제어하는법을익힐수있도록,세상에존재하는‘다크데이터’의유형과그것들이발생하는상황들에대해현실적인분류법을제시한다.이로써우리는‘우리가모르는것들’이초래하는문제들에대해경각심을가질뿐만아니라,다크데이터를이용해서더깊은이해와더나은결정을하게된다.

누락된데이터의바다에서
‘다크데이터’를만나다
개인의삶에서든전문분야에서든우리는무언가결정할때면대개어떤형태로든데이터를가지고시작한다.그런데우리는미래를알고싶어하면서도미래가과거와크게다르지않다고추정하는등의무모한판단을무심코계속하는경향이있다.하지만손에쥔데이터는전부가아니다.빅데이터의모멘텀이점점가속됨에따라우리가놓치고있는다크데이터의위험성도커지고있다.
우리에게없거나우리가모르는데이터를저자는물리학의‘암흑물질darkmatter’에빗대어‘다크데이터’라부른다.우리는그사실을알수도,모를수도있다.‘다크데이터’는쉽게말해‘우리가갖고있지않은’데이터다.다크데이터는어디서든생겨나며모든곳에있다.그리고다크데이터의정의상가장큰위험은우리가그존재를모를수있다는점이다.다크데이터는언제어떻게생겨나서작동하며,어느순간에우리의뒤통수를치는가?다크데이터를역이용하여틀리지않고이기는결정을내릴방법은없는가?세계적인통계학자데이비드핸드는데이터폭증의시대에더욱‘다크데이터관점’이중요함을역설하며,어디에든존재하는다크데이터의속성과그원인및결과를망라해나간다.

이책은우리가‘갖고있지않은’데이터를다룬다.그러니까우리가지금갖고싶거나,이전에가지고싶었거나,또는가진줄알지만실제로는갖고있지‘않은’데이터에관한책이다.(중략)볼수없는데이터는우리를잘못된길로이끌잠재력이있으며,앞으로살펴보겠지만때로는파국을초래하기도한다.그런일이어떻게그리고왜생기는지알려주겠다.또파국을어떻게막을지,파국을피하려면무엇을찾아야할지도알려주겠다.그다음에는어쩌면놀랍게도,다크데이터를역이용하여종래의데이터분석방식을어떻게뒤집을수있는지도알려주겠다.다시말해(우리가충분히현명하다는전제하에)어떻게하면데이터를숨기는것이더깊은지혜,더나은결정,더나은행동의선택으로이어질수있는지도알아보자._서문에서

세계적통계학자데이비드핸드,
‘다크데이터’를간파하고활용하는법을말하다
데이비드핸드는왕립통계학회회장을역임하고대영제국훈장을받은통계학계의세계적인권위자다.그는금융,건강,약학,의료분야및정부를위해대량의데이터를분석해오면서오랜세월에걸쳐‘다크데이터’의정체에눈을떴다.《다크데이터》는그정수를모은것으로,데이비드핸드는‘누락된데이터’분야의전문가이자선구자라해도과언이아니다.
전작《신은주사위놀이를하지않는다:로또부터진화까지,우연한일들의법칙》에서핸드는‘일어날가능성이거의없는사건들’의법칙을다뤄세상의시선을끌었다.이번책에서는전작의맥을이어의료?제약?행정?사회정책?금융?제조업등각분야의다크데이터현상에다가간다.‘우리가모른다는것을아는데이터’와‘우리가모른다는것조차모르는데이터’들을대상으로삼아,빅데이터시대문제해결의본질적맹점을확인하고보완한다.
문제들의근본적해결책은,데이터의우주속알려지지않은어두운영역들이우리의인식을어떻게왜곡하는지파악하는것이다.그러면서‘데이터가불완전할수도있다’는것을인식하지못한다면,또무언가를측정하는것이곧모든것을측정하는것을뜻하지는않으며측정절차와측정대상은미묘하고도비뚤어진방식으로상호작용할수있다는것을인식하지못한다면,우리는지금세상에무슨일이벌어지고있는지에대해심각한오해만얻을것이라고경고한다.

다크데이터는언제어디서나작동한다
우리에게는‘다크데이터관점’이필요하다
데이터는현실을표상해주지만,마치캐리커처로그린만화와도같다.우리는마치만화가사람의얼굴이나행동의주요특징을포착하듯데이터가현실의중요한특징들을포착하기를바라지만,누구도그걸보장해주지는않는다.실제로데이터는중요한많은것들을쉽사리빠뜨리고,잘못된결론과끔찍한의사결정을낳곤한다.무시된정보나데이터는회사나경제를무너뜨리고인명을앗아갈수도있다.이책은마치데이터의세계를둘러싸고쫓고쫓기는추리소설처럼현실속생생한사례들을심도있게해석해준다.

★‘다크데이터’는우리주변어디서나작동하고있다★
도로침하나재해상황을신고하는스마트폰앱이놓친것은?
챌린저호폭발사고에서파국적인결과를낳은다크데이터의정체는?
기존대출데이터로미래고객의심사모형을설계할때만날수있는문제는?
규제의빈틈,정보비대칭등을이용하려는시도는어떤현상을낳는가?
나날이진화하는사기의세계에서데이터는어떻게숨겨지고왜곡되어왔나?
학생들의학점인플레이션이일어나는원인에는어떤다크데이터가존재하는가?
반증가능성과자기수정이본질인과학은과연‘재현가능성’의위기를맞이했나?

‘서툰범죄자들은경찰에잘잡히지만,진짜영악한사기꾼들은발각되지않고빠져나가니까결국수많은범죄자가잡히지않고있는것아닌가?’‘증세가뚜렷하지않은환자가적절한치료타이밍을놓치기쉬운이유는?’‘중고차시장에는왜이렇게형편없는매물이넘쳐날까?’같은간단한궁금증에서시작해,저자가직접금융기관으로부터의뢰받아대출심사모델을설계하면서파악한다크데이터문제,오늘날경제지표나개인정보암호화등에활용하는첨단기법같은사례들을들어실제행정?비즈니스?IT?과학연구현장에서데이터를다룰때경계해야할지점들을보여준다.
책의1부에서는다양한사례를통해다크데이터의15가지유형을두루살펴보고,그것들을간과한것이어떤결과를초래하는지확인한다.데이터수집과정과더불어다크데이터가생길수있는몇가지방식을따라,설문조사,의료및과학연구,학력평가,건강검진,경제정책수립,법령개정,심지어현대인의일상을위협하는각종사기와기만행위등현대사회에서다크데이터가존재할수있는수많은영역을둘러본다.그럼으로써다크데이터를어떻게감지할것이며,감지했거나의심이되면어떤조치를취해야하며어떻게다크데이터를방지하는데이터수집전략을설계해다크데이터를제어할수있는지보여준다.
이어서책의2부에서는치명적위험을지닌다크데이터를활용하는법을알려준다.곧(우리가불확실성과무지를현명하게제어할줄안다는전제하에)‘모른다는것’을최대한역이용해서좀더유용한행동을취하는법을알려준다.크게‘다크데이터를명백하게밝혀내는방법(빠진데이터를보완하고채워넣는법)’‘다크데이터를참작하는방법(오류에대처하는법)’그리고더들어가‘다크데이터를실제로활용하는방법(무작위대조군실험부터시뮬레이션,베이즈사전확률등)’등을이야기한다.

◆◇◆
우리는모두환한곳을바라보는데익숙해져있다.하지만데이터는완전히객관적이지도않고‘진리’도아니다.어둠속보이지않는곳에분명‘더나은결정’을위한결정적세부사항이숨어있다.그러니데이터가주도하는이세상에서우리에게필요한것은‘데이터를의심할줄아는것’,건강한회의주의자로사는기술이다.그래서우리에게는‘다크데이터’관점이필요하다.이책은보통사람들이평소에는쉽게알아볼수없는통계학적분석의관점을보여주며,또한‘데이터관점’을‘다크데이터관점’으로뒤집어서더나은결정을향한또다른시야를열어준다.
우리는끊임없이경계하며자문해야한다.“우리는무엇을놓치고있는가?”