AI와 벤치마크, 신뢰할 수 있는 지능의 척도(큰글자책)

AI와 벤치마크, 신뢰할 수 있는 지능의 척도(큰글자책)

$25.00
Description
AI의 성능은 숫자로 증명될 수 있는가. 벤치마크 점수의 한계와 왜곡 구조를 분석하며, 신뢰할 수 있는 지능의 기준을 묻는다. 데이터 오염과 리더보드 경쟁 속에서 드러나는 평가의 문제를 짚고, AI 시대에 필요한 새로운 판단 기준을 제시한다. AI문고. aiseries.oopy.io에서 필요한 인공지능 지식을 찾을 수 있다.
저자

이영호

대구교육대학교컴퓨터교육과교수다.서울교육대학교를졸업하고동대학원에서박사학위를받았다.주요저서로《모두의인공지능with파이썬(개정2판)》(2025),《IT세계가그렇게어려운가요?》(2025),《인공지능은선생님을대신할까요?》(2023),《모두의인공지능with스크래치》(2020)등이있다.
인공지능모델개발및성능평가와관련된연구를진행하고있으며,한국연구재단의“교육용LLM성능평가벤치마크및가이드라인개발연구”(2025),“자연어처리모델기반질의-응답시스템개발및적용연구”(2023)등을수행하고있다.

목차

인류의미래를여는열쇠,신뢰할수있는AI

01AI성능평가의역사와기술의공진화
02최신AI평가패러다임
03언어지능의평가
04사회적지능의평가
05시각적지능의평가
06신체적지능의평가
07피지컬AI의평가
08리더보드의함정
09AI평가방법의오류
10인간정렬평가

출판사 서평

벤치마크의점수뒤에숨은진실,AI평가의본질을묻다
인공지능은매일더뛰어난성능을기록하며진화하고있다.그러나우리는그성능을무엇으로판단하는가.AI시대의핵심질문,‘지능은어떻게측정되는가’에정면으로답한다.오늘날대부분의AI평가는벤치마크점수에의존한다.높은점수는곧높은지능으로받아들여지지만,그숫자가과연신뢰할수있는척도인지는별개의문제다.잘못설계된문항,복수정답문제,데이터오염과같은구조적결함은평가결과의신뢰도를흔든다.더나아가기업과연구기관이리더보드경쟁에몰입하면서특정시험에만최적화된‘기형적지능’이등장하는현상도심각한문제로지적된다.이러한현실을비판적으로분석하며,벤치마크가어떻게만들어지고왜왜곡되는지를구조적으로설명한다.특히생성형AI와피지컬AI시대에접어들며잘못된판단이실제위험으로이어질수있다는점에서,평가의문제는기술을넘어사회적과제로확장된다.
이책은다양한평가방식과최신연구를통해신뢰할수있는지능의기준을모색한다.숫자에대한맹신을넘어서,우리가무엇을측정하고있으며무엇을놓치고있는지를다시묻게만든다.