미디어 인공지능 (영상 분야의 딥러닝 활용을 중심으로)

미디어 인공지능 (영상 분야의 딥러닝 활용을 중심으로)

$26.20
Description
이 책은 언론과 방송 등 미디어 분야의 연구, 교육, 실무 차원에서 AI 전환(AI transformation, AIX)을 촉진하기 위해 작성됐다. 이를 위해 다음과 같은 세 가지 측면을 염두에 두었다.

첫째, 기존의 AI 기술 서적은 대부분 미디어 분야와 무관하게 작성되어 있었다. 사실 AI 연구자들이나 규제 당국은 미디어에 대해 관심이 없었다. 반대로 언론사 역시 AIX에 관심을 갖고 있지만, 몇몇 해외 언론사를 제외하고 이를 전면적으로 실행하는 경우는 많지 않았다. 이 책은 미디어 분야의 AI 활용을 하나의 응용 분야로 제시하기 위해 미디어 AI이라는 용어를 제시하고, 미디어 AI로 포괄할 수 있는 핵심 기술을 설명했다. 기술적 부분 외에도 AI 연구에서 다소 추상적인 수준 또는 기술 일반 수준에서만 논의되고 있는 설명 가능한 AI(eXplainable AI, XAI)나 신뢰할 수 있는 인공지능(trustworthy AI, TAI), 멀티모달 AI에 대한 논의를 저널리즘 AI이나 대중문화 등 미디어 영역에서 집중적으로 살펴보았다.

둘째, 그동안 미디어 커뮤니케이션 학계나 업계에서는 딥러닝이 주로 텍스트를 대상으로, 기술적으로는 자연어처리 측면에서 다뤄져 왔다. 그 결과 분석 대상이 기사나 커뮤니티, 댓글 중심으로 이루어져 왔다. 이 책은 텍스트보다는 영상 분야, 즉 컴퓨터 비전(computer vision)의 딥러닝에 무게를 두고자 했다. 이를 통해 기존의 텍스트 중심의 딥러닝 활용 연구를 영상, 특히 동영상 분야로 확대하는데 도움이 되길 기대한다.

미디어 분야에서 컴퓨터 비전 관련 딥러닝 기술은 다음과 같은 측면에서 다루었다. 우선 미디어 AI의 주요 과업(task)을 정의하고, 기술적 측면에서 판별 모델은 합성곱 신경망(convolutional neural network, CNN), 생성 모델은 멀티모달 AI, 특히 스테이블 디퓨전(Stable Diffusion)을 중점적으로 다루었다. 이밖에 기존 기술 서적이 소홀히 하고 있는 AI 학습데이터 구축에 대한 내용을 특히 방송 동영상과 관련해 상술했다. 미디어 생산물은 특히 컴퓨터 비전 분야 학습데이터의 원천데이터로서 가치가 높기 때문이다.

셋째, 이 책은 교양서와 기술서 간의 간극을 메우고자 했다. 이를 통해 AI에 대한 지식이 전혀 없는 독자가 인공지능의 개념에서 시작해 컴퓨터 비전 분야 딥러닝의 전반적인 내용까지 이해하는데 도움을 주고자 했다. 미디어 커뮤니케이션학 분야에서 양적 접근을 하지만 컴퓨터 비전 분야 딥러닝은 낯선 양적 연구자는 물론, 학부생이나 대학원생을 비롯한 인문사회계 학생이나 기술적 이해를 바탕으로 AI에 비판적 연구를 수행하는 문화연구자, 그리고 컴퓨터공학을 전공하지 않은 언론사 기자나 방송사 프로듀서, 미디어 스타트업에 종사하는 비전공자 등 미디어 업계의 다양한 종사사, 미디어 관련 정책 담당자가 이해할 수 있도록 서술하고자 했다.

개발자들은 유튜브나 기술 블로그의 글, 오픈 액세스(open access) 논문 데이터베이스인 아카이브(arXiv) 등에 공개된 논문, 깃허브 등에 오픈소스로 올라온 내용, 쉽게 쓰인 다양한 개론서들을 통해 누구나 AI를 쉽게 공부할 수 있다고 말한다. 문제는 이러한 문서조차 AI에 입문하는 인문사회계 연구자에게는 너무나 많다는 것이다. 인문사회과학 전공자들이 AI 기술을 조금이라도 깊이 있게 공부하려고 해도 어디서 시작하고 어느 방향으로 나아가야 할지 막막하기만 하다. 쉽게 쓰인 개론서라고 해도 인문사회계 전공자들은 수식과 코드에 지레 겁을 먹게 되어 핵심 원리 파악에 어려움을 겪는다. 게다가 개론서조차 그 양이 방대하다. 반대로 교양서는 포괄적이기는 하나 기술에 대한 깊이 있는 이해를 얻기에는 어려움이 있다. 뿐만 아니라 교양서의 수많은 사례들도 금세 시의성을 잃고 만다. 인문사회과학 전공자가 보기에 교양서와 기술서 간의 간격이 큰 셈이다.

이 책은 AI에 관련된 교양서와 달리 좀 더 학술적인 관점에서 방향타를 제시할 수 있도록 작성했다. 딥러닝 분야의 방대한 성과를 최대한 간결하게 서술하도록 노력했으며 원리 중심으로 서술하고 사례는 독자의 이해를 돕는 수준에서 대표적인 것 위주로 절제해 기술했다. 소스 코드는 완전히 배제했으며 수식 사용도 최소화했다. 대신 이 분야에서 널리 인용되는 주요 논문이나 단행본은 참고문헌에 충분히 담고자 했다.

이 책을 출발점으로 추가 연구를 통해 양적 연구자는 딥러닝 기반 방법론을 정교화할 수 있을 것이다. 비판적 연구자는 기술 이해를 바탕으로 AI에 대한 적확한 진단을 내릴 수 있을 것이다. 미디어의 AIX가 어려운 것은 미디어 종사자들과 미디어 정책 담당자들이 AI에 대한 이해도가 낮기 때문일 수 있다. 언론인이나 방송인은 기술적 이해를 바탕으로 기획자로서 개발자와 협업하여 인간 중심 AI(human-centered AI)를 설계하고 비판적으로 운영, 고도화하는데 도움이 되기를 기대한다. 학생들은 미디어 AI 관련 연구자나 실무자로 성장하는 기반 지식을 얻을 수 있을 것이다.
저자

박대민지음

-서울대학교언론정보학과학사(미학부전공),석사(게임학),박사(뉴스빅데이터분석,금융통치성연구)
-매일경제신문취재기자(2006-2012)
-한국언론진흥재단선임연구위원(2014-2019):빅카인즈기획,뉴스빅데이터,미디어스타트업,미디어블록체인등의9편의연구서작성
-KDX한국데이터거래소최고기술책임자(2019-2020):대용량동영상AI학습용데이터구축사업총괄,유통소비빅데이터플랫폼구축사업기술책임
-선문대학교미디어커뮤니케이션학부조교수(2021-현재):영상미디어와인공지능,빅데이터분석방법론,빅데이터스토리텔링,데이터저널리즘,미디어스타트업,디지털영상미디어의이해강의
-한국언론학회,한국언론정보학회연구이사,한국지역언론학회총무이사역임
-(현)한국언론학보,헬스커뮤니케이션학보,지역과커뮤니케이션편집위원
-한국언론학회미디어블록체인&스타트업연구회초대회장
-뉴스통신진흥회연구학술위원,데이터저널리즘코리아컨퍼런스심사위원,서울시소통위원회자문위원등
-한양대학교언론정보대학원겸임교수,국민대학교소프트웨어융합대학원겸임교수,선문대학교시간강사

목차

CHAPTER01들어가며
CHAPTER02인공지능과컴퓨터비전
CHAPTER03인공지능학습데이터
CHAPTER04인공신경망의대두와발전
CHAPTER05판별모델:합성곱신경망
CHAPTER06생성모델:순환신경망,적대적생성신경망,오토인코더
CHAPTER07전이학습,멀티모달인공지능
CHAPTER08인공지능학습데이터구축과모델개발
CHAPTER09인공지능학습데이터의품질평가와모델의성능평가
CHAPTER10미디어인공지능학습데이터
CHAPTER11미디어인공지능의모델과활용
CHAPTER12설명가능한인공지능과미디어인공지능의투명성
CHAPTER13신뢰할수있는인공지능과미디어인공지능의다양성
CHAPTER14생성인공지능과미디어인공지능의심미적경험
CHAPTER15나가며:일반인공지능과미디어인공지능

출판사 서평

이책의구성은서론인1장과요약및제언에해당하는15장을제외하면크게네부분으로나눌수있다.
첫번째부분은2장부터7장까지로,세부적으로는2장부터4장까지는인공지능에대한기본적인이해를다루며인문사회계학부교양수업수준에적합하다.
5장부터7장까지는컴퓨터비전분야의딥러닝에대한이론을전반적으로다룬다.미디어커뮤니케이션학부전공수업에서공부할만하다.
두번째부분은실제AI학습데이터를구축하고모델을개발하고이를평가하는방법을서술하는부분으로8장과9장에해당한다.미디어커뮤니케이션학부전공고학년수준에서소화할것으로기대한다.
세번째부분은10장과11장으로미디어AI에초점을두고AI학습데이터와모델개발을설명한다.실제모델을개발하는대학원생,연구자,실무자가참고할수있는내용이다.
네번째부분은12장부터14장까지로미디어AI의가치를다룬다.AIX을추진하는미디어조직의의사결정권자나관련정책담당자,비판적접근을하는연구자에게참고가될수있을것이다.
각장별로내용을좀더소개하면아래와같다.
2장은컴퓨터비전과딥러닝의기본개념을살펴본다.1절은AI,기계학습,딥러닝의개념과유형을다룬다.AI개념에서는튜링테스트(turingtest)와중국어방(Chineseroom)논증을설명한다.
2절에서는디지털영상의개념,디지털영상의함수표현,그리고디지털영상처리(digitalimageprocessing)의과업인영상변환(imagetransformation),영상분석(imageanalysis),영상인식(imagerecognition)등을살펴본다.
3장에서는AI학습데이터의개념과영상분야AI학습데이터의유형을기술한다.가장기본적이고중요한AI학습데이터유형은직사각형형태의바운딩박스(boundingbox)이다.이미지넷(ImageNet),COCO(CommonObjectsinContext)등컴퓨터비전분야의주요벤치마크데이터세트도소개한다.
4장에서는딥러닝이전의인공신경망을다룬다.구체적으로는단순선형회귀(simplelinearregression),다중선형회귀(multiplelinearregression),로지스틱회귀(logisticregression)를인공신경망으로표현한단층퍼셉트론(singlelayerperceptron),다층퍼셉트론(multilayerperceptron)으로이어지는발전을살펴본다.최적화(optimization),손실함수(lossfunction),활성함수(activationfunction),경사하강법(gradientdescent),XOR문제와해결,오차역전파(errorbackpropagation),기울기소실(gradientvanishing)문제등딥러닝을이해하는데필수적인기본개념을소개한다.
5장에서는판별모델인합성곱신경망의개념과구조,발전을살펴본다.또한알렉스넷(AlexNet)에서시작하여미디어AI에유용한실시간객체탐지모델인YOLO(YouOnlyLookOnce)와다중객체추적(multiobjecttracking,MOT)까지합성곱신경망의발전을간략히훑어본다.
6장에서는생성모델인순환신경망(recurrentneuralnetwork,RNN),적대적생성신경망(generativeadversarialnetwork,GAN),오토인코더(autoencoder)의개념과구조,발전을간략히살펴본다.
7장에서는최근각광받는전이학습(transferlearning)과멀티모달AI를살펴본다.특히오토인코더와결합한잠재확산모델(latentdiffusionmodel)인스테이블디퓨전을중심으로소개할것이다.
8장에서는AI학습데이터의설계,수집,전처리,가공,검수등의과정을설명한다.또한AI학습데이터구축에필요한저작도구로서블랙올리브사례를소개한다.이어AI모델의기획,준비,개발,활용을단계별로살펴본다.
9장에서는AI학습데이터의데이터품질평가와AI모델의성능평가문제를다룬다.또한데이터품질과밀접한관계가있는AI학습데이터의표준화문제도다룬다.AI학습데이터는비정형데이터를포함하고있어서기존의데이터표준화와는다른접근이필요하다.이어데이터품질평가와모델성능평가에활용되는평가지표들을소개한다.특히F1점수(F1score),mAP(meanaverageprecision)와같은판별모델의성능평가지표와함께재현율(recall)과정밀도(precision)를활용한생성모델의성능평가지표도소개한다.
10장에서는한국지능정보사회진흥원의AI허브에공개된방송동영상활용AI학습데이터를소개한다.특히방송동영상과유튜브동영상을원천데이터로활용해학습데이터를구축해공개한8종의데이터세트중7종에대해데이터표준화를수행하고정리한수량을제시한다.
11장에서는방송분야의미디어AI에서중요한과업들과활용가능한모델을소개한다.또한실무와연구차원에서미디어AI의활용사례와활용절차를살펴본다.
12장,13장은미디어AI가저널리즘의핵심문제를어떻게해결할수있을지를탐색한다.
12장에서는설명가능한인공지능에서강조하는투명성(transparency)개념이사실성제도로서언론의위기해결에기여할수있는바를모색한다.
13장에서는신뢰할수있는인공지능을미디어신뢰도개선에활용할수있는방안을고민한다.TAI는특히다양성측면에서공정성을보완할수있을것으로기대된다.
14장은대중문화측면에서AI가어떤가치를갖는지를살펴본다.특히생성AI는사용자의창작성을증대시킨다.더나아가대중문화의가치론적무게중심을창작성에서사용자커뮤니티의심미적경험으로이행하는과정을가속화할것이다.