QA를 넘어 개발자도 알아야 할 AI 에이전트 품질 가이드 (정답 없는 AI 서비스의 신뢰 기준, LLM Judge 평가 전략)

QA를 넘어 개발자도 알아야 할 AI 에이전트 품질 가이드 (정답 없는 AI 서비스의 신뢰 기준, LLM Judge 평가 전략)

$28.00
Description
AI 시대 요즘 QA, AI 에이전트 품질 평가, 이 한 권으로 시작하자!
정답 없는 AI 시대, 무엇을 기준으로 PASS를 줄 것인가?
QA팀이 없어도, 품질은 누군가 책임져야 합니다.
AI 서비스는 왜 ‘어제는 괜찮았는데 오늘은 실패하는지’ 설명하기가 어렵습니다. 같은 질문에도 답이 달라지고, 맥락에 따라 결과가 바뀌며, 문제를 재현하기도 쉽지 않기 때문입니다. 저자는 이런 흔들림을 줄이기 위해, 개발이 끝난 뒤에 검증을 덧붙이는 방식이 아니라 Shift-Left Testing 관점에서 초기에 품질을 설계하고 운영하는 흐름을 실무 언어로 정리했습니다. 이 책은 그 결과를 담은 AI 에이전트 품질 평가 입문서입니다.

먼저 “좋은 답변”을 말로만 판단하지 않도록, Responsible AI Testing 프레임워크인 RaiT를 바탕으로 품질의 조건을 항목별로 정리합니다. 정확도뿐 아니라 의도 이해, 안전성, 표현의 적절성, 일관성처럼 실제 서비스에서 문제가 되는 지점을 기준으로 삼아, 팀이 합의할 수 있는 평가 기준표를 만들고, 그 기준을 Judge 프롬프트로 구현해 누가 보더라도 납득할 수 있는 판정 체계로 바꾸는 방법을 안내합니다.

그리고 사람이 매번 확인하는 방식에서 벗어나, 평가를 반복 가능하게 만드는 운영 방식을 제시합니다. 릴리스가 반복될수록 평가가 느슨해지거나 결과가 흔들리지 않도록, 테스트 준비부터 실행, 결과 정리와 공유까지의 흐름을 표준화하고, 현업에 즉시 적용할 수 있는 체크리스트와 보고서 템플릿도 함께 제공합니다. 더 나아가 품질이 좋아도 느리면 실패한다는 관점에서, 사용자가 체감하는 반응 속도인 TTFT와 완성 속도인 TTLT까지 함께 다루며, 릴리스마다 더 단단해지는 운영 루프로 연결합니다.

이 책을 통해 여러분은 흔들리는 결과 앞에서 당황하기보다, 정리하고 재현하고 개선하는 방식으로 문제를 다루게 될 것입니다. 완벽함보다 중요한 건 꾸준히 운영 가능한 체계를 만드는 일이고, 그 과정에서 여러분은 분명 한층 더 강한 품질 담당자로 성장하게 될 것입니다.
저자

정상미

소프트웨어품질보증분야의발전을위해노력하고있는전문가이다.AI를비롯한다양한소프트웨어영역에서품질보증적용확대와테스트자동화,테스트환경구축에관심을가지고있으며,특히자동화기반검증과대규모언어모델(LLM)검증,보안성검증기술연구에주력하고있다.음성AI서비스와모빌리티플랫폼의품질보증업무를수행하며,윈도우,리눅스,맥,모바일,웹브라우저등다양한이기종플랫폼에서동작하는제품들의테스트자동화프로젝트를수행해왔다.정보관리기술사로서IT보안과소프트웨어품질관리전문성향상에힘쓰고있다.저서로는『더괜찮은QA가되기위한프랙티컬테스트자동화』가있다.

목차

머리말
QA의변화와새로운성장기회
QA커리어는어디로향하는가
베타리뷰어의한마디:첫독자가전하는말
이책이전하려는것
독자에게드리는부탁

Chapter1.AI시대,소프트웨어의품질기준은왜달라져야하는가
_1.1AI이전의프로젝트에서QA는?
_1.2AI프로젝트초기,QA가마주한혼란의기록
__우리가품질에서놓친것들:AI프로젝트초반,불안정했던QA현실
_1.3더이상늦게들어가선안된다:Shift-LeftTesting
__Shift-LeftTesting
__Shift-LeftTesting의실전적용:“우리가바꾼프로세스”
_1.4새로운기술에는새로운품질기준이필요하다.
__ResponsibleAIFrameworks
__ISO/IEC42001:AI관리체계전반의품질통제기준
__TTA의인공지능신뢰성인증
__ResponsibleAI를위한새로운AI테스트기준,RaiT
_1.5마무리하며:AI시대요즘QA에대하여

Chapter2.AI에이전트를이해하면테스트가쉬워집니다
_2.1AI모델의개념과생성방식이해
__AI모델의기본개념
__AI모델의분류방식
_2.2AI모델최적화기술
__프롬프트튜닝(Prompt-Tuning)
__파인튜닝(Fine-tuning)모델
__RAG(Retrieval-AugmentedGeneration)
__모델증류(ModelDistillation)
_2.3AI에이전트테스트포인트
__무한응답의혼돈:예측불가성과환각(hallucination)
__데이터중독과편향(Bias)-사회적편견이응답으로나타나는경우
__문맥의미로-컨텍스트누락,왜곡,충돌
__기술종속의덫-모델과프롬프트의존성(lock-in)
_2.4AI에이전트유형별구조
__AI에이전트주요구성요소
__정확한명령을처리하는FunctionAgent
__문맥을기억하는AgenticAgent
__말을걸지않아도먼저도와주는PromptlessAgent
_2.5마무리하며:AIAgent이해가시작입니다.

Chapter3.AIAgent품질을측정하는프레임워크
_3.1ResponsibleAIAgentTest(RaiT)
__RaiT테스트방법론
__RaiT테스트프로세스
__RaiT테스트도구
_3.2RaiT품질지표
__문맥연결성(ContextualRelevance,관련성)
__의도해석성(IntentInterpretation,이해도)
__신뢰안전성(Trust&Safety,안전성)
__표현적절성(LinguisticAppropriateness,표현성)
__정보정확성(FactualCorrectness,정확성)
__목표충족성(TaskEffectiveness,적합성)
__반응안정성(ResponseStability,일관성)
__지속적응성(Continuity&Adaptivity,지속성)
3.3RaiT평가기준점
__품질기준점영향요소
__품질기준점정책
_3.4마무리하며:RaiT는AIAgent품질의새로운기준

Chapter4.AIAgent테스트설계실전
_4.1RaiT테스트플랜프로세스
__품질지표평가및선택
__품질Criteria정의
__답변기준설정
_4.2RaiT테스트케이스도출
__테스트케이스종류와품질지표
__질문생성프롬프팅
__컨텐츠추가
_4.3RaiT테스트실행프로세스
__매뉴얼검증:AI모델품질향상을위한필수적인사람중심평가
__자동테스트
__이슈등록및관리
__결과보고
_4.4마무리하며:같은듯다른테스트프로세스

Chapter5.모델의평가는이제모델에게:프롬프트와모델로평가자동화하기
_5.1.'정답'이없는시대의테스터를위한자동화안내서
__초기계획수립의어려움
__LLM평가방식자동화에대한고민
__자동화구현방식의고민
__자동화프롬프트의중요성
_5.2Rubric기반JudgePrompt설계
__무엇이좋은Judge프롬프트를만드는가?
__Judge프롬프트의5가지핵심구성요소
__단계별루브릭상세화:점수에의미부여하기
__실전!Judge프롬프트템플릿작성하기
__살아있는프롬프트로발전시키기
_5.3Few-shot기반JudgePrompt설계
__제로샷(Zero-shot)의한계를넘어:왜Few-shot이필요한가?
__효과적인Few-shot예시(Exemplar)의조건
__실전!Few-shotJudge프롬프트템플릿작성하기
__퓨샷프롬프팅의장점과주의사항
_5.4AI의오답노트와모범답안:감점/긍정피드백활용법
__기본평가의한계와2단계평가의필요성
__실전!2단계평가프롬프트작성예시
__평가에서학습으로:피드백루프의완성
__감점피드백:실패에서배우는수정된모범답안생성
__긍정피드백:성공에서배우는행동원칙추출
__결론:평가와학습의선순환
_5.5평가모델기반판정(BERTScore,Classifier)
__BERTScore:정답과의미가얼마나비슷한가?의미유사도측정
__Classifier(분류기):이답변은합격인가,불합격인가?-품질기준평가
_5.6A/BTest와신뢰도확보방법
__A/B테스트의핵심원리
__오프라인A/B테스트:BERTScore를활용한자동화된성능비교
__온라인A/B테스트:실제사용자를통한최종검증
_5.7마무리하며:AI평가시스템,살아있는유기체로만들기

Chapter6.품질은반복에서만들어집니다-자동화와적용사례
_6.1실무QA환경에서의자동화전략과성공포인트
__실무성공을위한5가지자동화전략
_6.2평가자동화구조설계:입력〉실행〉판정〉리포트
__1단계:입력(Input)-자동화의재료를준비하는단계
__2단계:실행(Execution)-평가를수행하는엔진
__3단계:판정(Judgment)-품질을측정하고점수를매기는단계
__4단계:리포트(Report)-결과를분석하고공유하는단계
__평가테스트자동화구조다이어그램
_6.3LLM평가자동화구현
__LLM평가자동화실습환경준비하기
__Postman으로빠르게사전검증하기
__LLM평가자동화구현하기
__최종실행결과
_6.4지속가능한자동화운영:프롬프트,데이터,보안,비용관리
__체계적인프롬프트관리전략:프롬프트를'코드'처럼다루기
__살아있는테스트케이스관리전략:'골든셋'의진화
__가장중요한자산:API키보안과관리
__비용최적화:토큰(Token)사용량완벽하게이해하고관리하기
_6.5LLM평가자동화현업실무적용사례(RaiTTool)
__사례1모두를위한LLM테스팅도구-RaiTClient)
__사례2API기반평가플랫폼-RaiTWeb
__사례3Jenkins를활용한온디맨드(On-Demand)평가-RaiTCI
_6.6평가결과분석및활용전략
__평가결과분석및후속조치프로세스
__리소스효율화:'선택과집중'전략
_6.7마무리하며:자동화도입시고려할점과유지테스트
__1.자동화도입전,반드시답해야할3가지질문
__2.시스템도입후:지속적인유지보수전략

Chapter7.여전히중요한성능
_7.1성능의트레이드오프:품질,속도,그리고비용
_7.2TimetoFirstToken(TTFT):사용자가느끼는'반응속도'의모든것
_7.3TimetoLastToken(TTLT):사용자가느끼는'완성속도'의모든것
_7.4성능모니터링리포트결과와유관부서협업
_7.5마무리하며:속도와품질,두마리토끼를잡는법

AppendixA.TestPlanChecklist
_1.목표및범위정의
_2.품질지표및기준설정
_3.테스트케이스설계
_4.테스트수행전략
_5.이슈관리및결과보고
_6.자원및일정계획
AppendixB.테스트결과보고서템플릿
_1.개요
_2.테스트목표및범위
_3.테스트방법론
_4.품질지표별품질기준점
_5.테스트결과요약
_6.품질지표별상세분석
__6.1.안전성
__6.2.정확성
__6.3.일관성
__6.4.지속성
_7.결론및권고사항
_8.첨부자료

출판사 서평

정답없는AI시대,품질을감이아닌‘검증가능한과정’으로증명하는실무가이드
AI에이전트가제품의핵심기능이되면서,테스트는더이상“기능이동작하나?”만확인하는일이아니게됐습니다.
같은질문에도답이달라지고,맥락에따라결과가흔들리며,무엇보다재현이어려운오류가늘어납니다.

그리고어느날팀은말합니다.
“어제는PASS였는데오늘은FAIL”입니다.

원인을설명하지못한채땜질과핫픽스를반복하는상황앞에서,
이책은바로그혼란을출발점으로삼아시작합니다.
정답이없는AI시대에품질을감이아니라원칙과절차로다루는방법을실무흐름으로정리합니다.

특히이책의강점은“평가”를말로만다루지않는다는점입니다.개발이끝난뒤에검증을덧붙이는방식에서벗어나,Shift-LeftTesting관점으로기획·설계단계부터품질목표와검증흐름을함께설계하도록안내합니다.이어서**ResponsibleAITesting프레임워크(RaiT)**로‘좋은답변’을항목화해팀이합의할수있는형태로바꾸고,누구나납득할수있는판단체계로연결합니다.“정확도만보면된다”는단순한접근을넘어,의도이해,안전성,표현의적절성,일관성처럼실제서비스에서문제를만드는지점을품질요소로정리해,평가가사람마다달라지는위험을줄입니다.

또한이책은평가를‘한번’해보는수준에서멈추지않고,반복가능한운영방식으로완성합니다.Judge프롬프트를통해평가를자동화하고,릴리스마다기준이흔들리지않도록리그레션운영루프로연결합니다.테스트준비부터실행,결과정리와공유까지를하나의흐름으로표준화해,팀이커지거나담당자가바뀌어도품질판단이무너지지않게설계한점이인상적입니다.

마지막으로“품질이좋아도느리면실패한다”는현실을놓치지않습니다.사용자체감속도를보여주는TTFT/TTLT관점을함께제시해,답변의내용뿐아니라반응속도와완성속도까지품질관리범위로끌어옵니다.그리고이모든내용을현업에서바로적용할수있도록체크리스트와보고서템플릿까지제공해,독자가“읽고끝”이아니라“내일바로적용”할수있게구성했습니다.QA와개발자가같은언어로품질을합의하고,흔들리는결과를운영가능한품질체계로바꾸고싶다면이책은현실적인출발점이될것입니다.

이런분께추천합니다!
QA/QE
“어제PASS,오늘FAIL”처럼흔들리는AI서비스품질을기준과운영루프로정리하고싶은분
수동확인에지치지않고,반복가능한평가·리그레션체계를만들고싶은분
개발자/테크리드
QA팀이없거나리소스가부족해도,팀이함께돌릴수있는품질검증방식이필요한분
릴리스마다품질이슈를땜질하는대신,자동평가(Judge프롬프트)기반운영으로전환하고싶은분
PM/기획자
“좋은답변”을말로만합의하지않고,팀이납득할품질기준과판단방식을세우고싶은분
릴리스마다품질목표와사용자경험(정확도·안전·일관성·속도)을한흐름으로관리하고싶은분
AI/데이터·서비스운영담당자
모델·프롬프트변경이잦은환경에서,변경전후품질을일관되게비교·추적하고싶은분
결과리포트와지표를기반으로품질을‘운영’하는체계가필요한분


-이책의구성-
이책은독자의이해를돕기위해가상의검색서비스기업‘펜서치(PENSearchInc.)’를설정했습니다.실제기업은아니지만,AI검색서비스를개발·운영하는과정에서발생할수있는문제를보다구체적으로설명하기위한사례로활용됩니다.펜서치는처음에는키워드기반검색서비스를운영하다가,차세대플랫폼‘넥스트서치(NextSearch)’로전환하는과정을겪습니다.이과정에서단순한검색기능을넘어,사용자의의도와맥락을이해하고답변을제공하는AI에이전트를도입합니다.
이러한설정을통해독자는검색서비스가어떻게발전하는지,그리고그과정에서품질기준과테스트방법론이어떤방식으로적용되는지를보다현실적으로이해할수있습니다.더나아가AI모델·에이전트시대에품질의기준이어떻게달라져야하는지,그리고QA가어떤방식으로역량과커리어를확장할수있는지를함께보여주고자합니다.

책은총7장으로구성되어있습니다.
1장은가상의AI프로젝트를함께수행하면서QA가겪었던혼란을돌아보고,Shift-Left전환을통해품질을수행하는과정을이야기합니다.
2장은AI에이전트를이해하는것이왜테스트의출발점인지를설명합니다.모델생성방식과최적화기술,그리고에이전트유형별구조를소개합니다.
3장은AI에이전트테스팅을위한ResponsibleAITesting,즉RaiT프레임워크를다룹니다.8가지품질지표로AI에이전트를어떻게평가할수있는지제시합니다.
4장은실제프로젝트에RaiT를적용하는방법을다룹니다.테스트플랜수립부터케이스도출,자동화적용까지단계별로정리했습니다.
5장은“AI품질판정은어떻게내릴것인가?”라는질문을다룹니다.단순히사람이점수를매기는것을넘어,프롬프트와모델을활용한평가자동화기법을소개합니다.자동화프롬프트설계와구현고민까지실제경험을담았습니다.
6장은“품질은반복에서만들어진다”는관점에서자동화사례를다룹니다.반복테스트를어떻게효율적으로구축하고,어떤방식으로적용했는지보여줍니다.
7장은여전히중요한성능품질을다룹니다.기능이나AI에이전트답변품질만큼이나,성능이사용자경험을좌우한다는점을다시짚고,자동화된성능테스트방식을정리했습니다.