데이터 과학 - 더 나은 의사결정을 위한 통찰의 도구

데이터 과학 - 더 나은 의사결정을 위한 통찰의 도구

$14.80
Description
핵심 개념부터 활용법과 성공 원칙, 윤리적 문제까지
인공지능, 빅데이터 시대를 살아가는 시민의 필수 교양
한 권으로 개념 잡는 데이터 사이언스
시민 교양으로서의 데이터 과학 개론서. 빅데이터, 인공지능, 딥러닝, 기계학습 같은 데이터 과학의 개념과 기술들이 어느새 업무는 물론 정치와 개인의 일상에까지 깊이와 너비에서 전례 없는 영향을 미치고 있다. 아일랜드 더블린공과대학교에서 데이터 과학을 가르치는 존 켈러허와 브렌던 티어니가 함께 쓴 이 책은 비전문가를 위해 전문적인 주제의 핵심 지식을 원리에 기초해 설명하는 〈MIT Essential Knowledge〉 시리즈 중 한 권으로, ‘데이터 과학은 무엇이고, 왜 중요한가? 기계학습, 딥러닝, 신경망은 무엇이고, 서로 어떤 관계인가? 데이터 과학자는 실제로 어떤 일을 하는가? 데이터 과학은 어떤 단계로, 어떻게 작동하는가? 데이터 과학 프로젝트가 성공하기 위한 원칙은? 데이터 과학의 발달에 따른 윤리적 문제는 무엇인가? 데이터 과학이 펼쳐보일 미래는 어떤 모습인가?’ 등 빅데이터 시대에 중심을 잡기 위한 중요한 질문들에 답한다. 두 저자가 굳건한 이론적 토대를 깔고 데이터 과학을 소개하고 있어, 장밋빛 미래에 대한 환상을 심어주거나 데이터 관련 기술이 인간과 사회를 어떻게 바꾸고 있는지 정도만 소개하는 책들과는 분명한 차별점이 있다. 데이터 과학을 처음 접하는 독자라면 이 책을 통해 핵심 개념부터 활용법과 성공 원칙, 윤리적 문제까지 데이터 과학 전반에 대한 기초 지식을 습득할 수 있을 것이고, 어느 정도 지식이 있는 독자도 대충 넘어갔던 부분을 보다 깊이 이해하고 데이터 과학 생태계 전반을 꿸 수 있을 것이다.

저자

존켈러허,브렌던티어니

저자:존켈러허
더블린공과대학교컴퓨터과학부교수이자부속기관인정보통신및엔터테인먼트연구소소장.인공지능,기계학습분야에서세계적으로인정받는전문가다.더블린시립대학교,유럽미디어연구소,독일인공지능연구센터등여러대학과연구소에서일했다.지은책으로《딥러닝》《데이터예측을위한머신러닝》(공저)이있다.

저자:브렌던티어니
더블린공과대학교컴퓨터과학부강사로,데이터과학,데이터베이스,빅데이터에관해강의한다.오라클의에이스디렉터이자디벨로퍼챔피온프로그램의멤버이기도하다.데이터과학분야에서25년이상의경력을지닌전문가로세계여러나라의프로젝트를수행했다.3권의오라클기술교재를집필했다.

역자:권오성
한겨레신문사데이터분석센터준비팀장.2007년입사하여사회부,국제부,온라인영상팀,IT등의영역을두루거쳤다.과학분야를맡던중뉴욕시러큐스대학교로연수를떠나컴퓨터기술과저널리즘의융합전공인컴퓨테이셔널저널리즘석사과정을마쳤다.미디어의미래,인공지능이사회에가져올영향등에관심이많다.지은책으로《미래와과학》(공저)이있다.

목차

감사의말
들어가는말
1장데이터과학은무엇인가?
2장데이터와데이터세트란무엇인가?
3장데이터과학생태계
4장기계학습101
5장표준적인데이터과학업무
6장프라이버시와윤리
7장미래동향과성공의원칙
옮긴이의말
용어설명

더읽을거리
참고문헌
찾아보기

출판사 서평

알고리즘은모든문제를해결할수있다?
데이터과학에대한오해와진실

정치분석,사회연구,도시계획,마케팅과조직효율화등데이터과학이사회각분야에서점점더많이쓰이다보니이에따른과장과미신역시적지않다.이책에서살펴보는데이터과학의오해와진실몇가지만적어보면다음과같다.

☞자동화된데이터과학프로세스에데이터를맡기기만하면모든문제에답을준다?
실제데이터과학은각단계마다이를감독할노련한데이터과학자가필요하다.인간이문제를규정하고,필요한데이터를설계및준비하고,어떤알고리즘이가장적합한지결정하고,분석결과를비판적으로해석하고,이를바탕으로실행계획을세우지않으면데이터과학프로젝트는실패할수밖에없다.
☞데이터과학에편향(bias)이있어서는안된다?
어떤데이터세트를선택하는지가그이후의분석에가져오는편향을표본편향이라고한다.표본편향은데이터과학자가피해야하는편향이다.데이터세트가대상집단을잘대표하지못한다면알고리즘이만들어내는모델이정확할리없기때문이다.한편학습편향이라는것도있는데,기계학습의여러분석알고리즘이저마다가지고있는,'대상을일반화하는독특한방식이나한계'를뜻한다.예를들어선형회귀알고리즘은데이터를선형으로일반화,추상화하기때문에비선형관계로나타내는것이더적절하다해도그런가능성을무시한다.다시말하면편향없이는학습도일어날수없으며모든상황에다맞는최고의알고리즘따위는없다는뜻이다.중요한것은어떤알고리즘을쓰는것이좋을지에대한인간의판단이다.
☞모든데이터과학프로젝트는빅데이터가필요하며딥러닝기술을써야만한다?
많은데이터보다는맞는,적합한데이터를갖고있는게더중요하다.데이터과학프로젝트는구글,바이두,마이크로소프트같은회사에비해훨씬작은데이터와컴퓨터연산력을가지고있는조직에서도자주이뤄진다.꼭테라바이트단위의데이터를다룰수있는조직만데이터과학을하는것은아니다.
☞데이터과학은숫자에바탕을두고있기때문에인간의편견이결정에영향을미치지않으니객관적이다?
데이터과학알고리즘은객관적이기보다는무도덕적이다.데이터과학은데이터에서패턴을추출하는데,만약데이터가편견에서비롯된관계를담고있으면알고리즘이내놓는결과역시편견을담고있다.예를들어언제어디서범죄가발생할것인지를예측하기위해고안된예방치안(PredictivePolicing)은편견과차별을강화할위험이있다.

일상과업무에깊숙이관여하고있는데이터과학
데이터범람의시대에중심을잡기위한핵심지식

이책의목적은데이터과학에서핵심적인요소들의기초를깊이들여다봄으로써독자가원칙에기초하여데이터과학을이해하도록하는데있다.각장에서다루는내용을살펴보면다음과같다.

1장<데이터과학은무엇인가?>에서는데이터과학이현장에서어떻게쓰이는지소개하고,데이터과학의발전과진화에관한간략한역사를살펴본다.더불어데이터과학에대한그릇된믿음을밝히고그정체를파헤쳐본다.저자들에따르면,지금처럼데이터과학을잘못하기쉬운때도없다.
2장<데이터와데이터세트란무엇인가?>은데이터,데이터세트,데이터베이스등데이터과학에서근본적인개념들을소개한다.또비즈니스에대한이해,데이터에대한이해,데이터준비,모델링,검토,적용등데이터과학프로젝트의전형적인단계를설명한다.보통모델링단계에가장많은시간이소요될것같지만실제로는전체프로젝트에투여되는시간의약80퍼센트가데이터준비에들어간다.
3장<데이터과학생태계>는빅데이터가불러온과제들,여러출처로부터온데이터를어떻게통합하는지등에초점을맞춘다.전형적인데이터과학의기반구조에대한설명으로시작해,큰데이터세트를데이터구조사이에옮기는과제를해결하기위해주목받는솔루션들을제시한다.
4장<기계학습101>에서는기계학습의영역들을소개하고가장널리쓰이는신경망,딥러닝,의사결정나무모델등의기계학습알고리즘과모델들을설명한다.기계학습은큰데이터세트에서모델을생성하는여러알고리즘을제공하지만이런모델이유용한지에대한판단은데이터과학자의전문지식에달려있다.
5장<표준적인데이터과학업무>는사업중발생하는여러기본적인문제들과기계학습으로이를어떻게해결하는지에대한설명을통해기계학습의전문분야와실제세계문제들의연결에초점을맞춘다.대부분의데이터과학프로젝트는군집화,이상탐지,연관규칙마이닝,예측,네부류중하나에속한다.
6장<프라이버시와윤리>에서는데이터과학이윤리에미치는영향,데이터규제의최근동향,개인의프라이버시를보호하는새로운기술적접근법등을살펴본다.여러분야의다양한맥락에서개인에대한데이터를수집하고사용하는것에대해어떻게접근하는것이합리적일까?물론정답은없다.
마지막7장<미래동향과성공의원칙>에서는가까운미래에데이터과학이상당한영향을몰고올개인화된의료와스마트도시두영역을알아보고,데이터과학프로젝트가성공하는데결정적역할을하는중요한원칙몇가지를제시한다.