파이썬을 활용한 머신러닝 해석 가능성 (예측의 공정성, 책임성, 투명성을 수립하는 다양한 방법 학습하기)

파이썬을 활용한 머신러닝 해석 가능성 (예측의 공정성, 책임성, 투명성을 수립하는 다양한 방법 학습하기)

$48.69
Description
설명 가능한 인공지능 또는 해석 가능한 머신러닝 모델을 구축하는 다양한 방법론을 소개한다. 최근 이슈가 되고 있는 인공지능 모델의 윤리적 문제를 다루면서도 동시에 높은 성능과 견고성을 유지할 수 있는 비결을 소개한다. 먼저 해석 가능성이란 무엇인지 설명하고 머신러닝 모델의 윤리적 측면인 공정성, 책임성, 투명성이 필요한 이유 그리고 이를 달성할 방법을 설명한다. 그 다음 다양한 상황과 다양한 데이터 형태를 갖는 각 유스 케이스에서 머신러닝 해석방법론을 적용하는 과정을 실제적으로 다루고 있다. 마지막으로 모델의 복잡성을 줄이고, 편향을 완화시키고, 안정성과 견고성을 향상시키기 위해 모델을 튜닝하는 방법을 학습할 수 있다.
선정 및 수상내역
2024년 대한민국학술원 우수학술도서 선정도서
저자

세르그마시스

(SergMasís)
지난20년동안인터넷,애플리케이션개발및분석의교차점에있었다.현재세계식량안보향상의임무를가진선도적인농업비즈니스기업인신젠타(Syngenta)의기후및농업데이터과학자다.그전에는클라우드컴퓨팅과머신러닝의힘을의사결정과학의원리와결합해사용자를새로운장소와이벤트에노출시키는하버드이노베이션랩스(HarvardInnovationLabs)가인큐베이팅한스타트업을공동설립했다.여가활동이나식물의질병,또는고객평생가치등분야에상관없이데이터와의사결정사이에서자주놓치는연결고리를제공하는데열정을쏟고있으며,머신러닝해석은이런격차를해소하는데강력한도움이된다.

목차

1부.머신러닝해석소개

__1장.해석,해석가능성,설명가능성:왜이모두가중요한가?
______기술요구사항
______머신러닝해석이란?
____단순몸무게예측모델의이해
______해석가능성과설명가능성의차이점이해
____해석가능성이란
____설명가능성이란
______해석가능성에대한비즈니스사례
____더나은의사결정
____더신뢰받는브랜드
____더윤리적인
____더많은수익
______정리
______이미지소스
______더읽을거리


__2장.해석가능성의주요개념
______기술요구사항
______미션
____CVD에대한상세정보
______접근법
______준비
____라이브러리로드
____데이터이해및준비
______해석방법론의종류와범위
____모델해석가능성방법론의종류
____모델해석가능성의범위
____로지스틱회귀로개별예측해석
______머신러닝해석가능성을저해하는요인
____비선형성
____상호작용성
____비단조성
______미션완료
______정리
______더읽을거리


__3장.머신러닝해석의과제
______기술요구사항
______미션
______접근법
______준비
____라이브러리로드
____데이터의이해및준비
______전통적인모델해석방법론
____다양한회귀방법론으로지연된시간예측
____다양한분류방법론으로항공편지연여부분류
____차원축소방법으로지연된항공편시각화
______전통적인모델해석방법론의한계
______본질적으로해석가능한화이트박스모델
____일반화선형모델(GLM)
____의사결정트리
____RuleFit
____최근접이웃
____나이브베이즈
______성능과해석가능성사이의균형
____특수한모델속성
____성능평가
______최신의해석가능한글래스박스모델
____설명가능한부스팅머신(EBM)
____SkopedRules
______미션완료
______정리
______데이터셋소스
______더읽을거리


2부.해석방법론마스터하기

__4장.피처중요도와피처영향력
______기술요구사항
______미션
____성격과출생순서
______접근법
______준비
____라이브러리로드
____데이터이해및준비
______결과에대한피처의영향력측정
____트리기반모델의피처중요도
____로지스틱회귀의피처중요도
____LDA의피처중요도
____다층퍼셉트론의피처중요도
______PFI실습
____PFI의단점
______PDP해석
____상호작용PDP
____PDP의단점
______ICE플롯
____ICE의단점
______미션완료
______정리
______데이터셋소스
______더읽을거리


__5장.글로벌모델독립적해석방법론
______기술요구사항
______미션
______접근법
______준비
____라이브러리로드
____데이터이해및준비
____데이터딕셔너리
______섀플리값소개
______SHAP요약플롯및의존도플롯해석
____SHAP요약플롯생성
____상호작용이해하기
____SHAP의존도플롯
____SHAP영향력플롯
______누적지역효과플롯
______글로벌대체모델
______미션완료
______정리
______더읽을거리


__6장.로컬모델독립적해석방법론
______기술요구사항
______미션
______접근법
______준비
____라이브러리로드
____데이터이해및준비
______SHAP의KernelExplainer활용해SHAP값으로로컬해석
______LIME
______NLP에LIME사용하기
______NLP에SHAP사용하기
______SHAP과LIME비교
______미션완료
______정리
______데이터셋소스
______더읽을거리


__7장.앵커와반사실적설명
______기술요구사항
______미션
____재범위험평가의부당한편향
______접근법
______준비
____라이브러리로드
____데이터이해및준비
______앵커설명에대한이해
____alibi를이용해앵커및반사실적설명준비하기
____앵커설명을위한로컬해석
______반사실적설명탐색
____프로토타입을통한반사실적설명
____What-If도구(WIT)를사용한반사실적설명
______CEM과의비교
______미션완료
______정리
______데이터셋소스
______더읽을거리


__8장.컨볼루션신경망시각화
______기술요구사항
______미션
______접근법
______준비
____라이브러리로드
____데이터이해및준비
____전통적인해석방법론으로CNN분류기평가
______활성화기반방법론으로학습과정을시각화
____중간활성화
____활성화극대화
______그래디언트기반귀인방법론으로오분류검증
____돌출맵
____Grad-CAM
____통합그래디언트
____종합
______섭동기반귀인방법론으로분류이해
____폐쇄민감도
____LIME의ImageExplainer
____CEM
____종합
____보너스:SHAP의DeepExplainer
______미션완료
______정리
______데이터셋및이미지소스
______더읽을거리


__9장.다변량예측및민감도분석을위한해석방법론
______기술요구사항
______미션
______접근법
______준비
____라이브러리로드
____데이터이해및준비
______전통적인해석방법론으로시계열모델평가
______통합그래디언트로LSTM속성생성
______SHAP의KernelExplainer로글로벌및로컬속성계산
______인자우선순위화로영향력있는피처식별
______인자고정으로불확실성및비용민감도정량화
______미션완료
______정리
______데이터셋및이미지소스
______더읽을거리


3부.해석가능성을위한튜닝

__10장.해석가능성을위한피처선택과피처엔지니어링
______기술요구사항
______미션
______접근법
______준비
____라이브러리로드
____데이터이해및준비
______상관성없는피처의효과이해
______필터링기반피처선택방법론
____기본필터링기반방법론
____상관관계필터링기반방법론
____순위필터링기반방법론
____필터링기반방법론비교
______임베디드피처선택방법론
______래퍼,하이브리드,고급피처선택방법론
____래퍼방법론
____하이브리드방법
____고급피처선택방법론
____모든피처선택모델평가
______피처엔지니어링고려
______미션완료
______정리
______데이터셋소스
______더읽을거리


__11장.편향완화및인과관계추론방법론
______기술요구사항
______미션
______접근법
______준비
____라이브러리로드
____데이터이해및준비
______편향감지
____데이터셋편향시각화
____데이터셋편향정량화
____모델편향정량화
______편향완화
____전처리편향완화방법론
____프로세스내편향완화방법론
____후처리편향완화방법론
____편향완화방법론비교
______인과모델생성
____실험결과이해
____인과모델에대한이해
____선형DRL초기화
____인과모델적합
______이질적처치효과
____정책선택
______추정치견고성테스트
____무작위공통원인추가
____무작위변수로처치대체
______미션완료
______정리
______데이터셋소스
______더읽을거리


__12장.해석가능성을위한단조성제약조건과모델튜닝
______기술요구사항
______미션
______접근법
______준비
____라이브러리로드
____데이터이해및준비
______피처엔지니어링으로가드레일배치
____서수화
____이산화
____상호작용항과비선형변환
____범주화인코딩
____다른준비작업
______해석가능성을위한모델튜닝
____케라스신경망튜닝
____인기있는다른모델클래스튜닝
____베이지안하이퍼파라미터튜닝및사용자정의메트릭으로공정성최적화
______모델제약조건구현
____XGBoost에대한제약조건
______미션완료
______정리
______데이터셋소스
______더읽을거리


__13장.적대적견고성
______기술요구사항
______미션
______접근법
______준비
____라이브러리로드
____데이터이해및준비
____CNN기본모델로드
____CNN기본분류기평가
______우회공격
______전처리를통한표적공격방어
______적대적학습을통해우회공격으로부터보호
______적대적견고성평가및인증
____모델견고성과공격강도비교
____무작위평활화로견고성인증
______미션완료
______정리
______데이터소스
______더읽을거리


__14장.머신러닝해석가능성그다음단계는?
______ML해석가능성의현재상황이해
____전체요약
__

출판사 서평

◈이책에서다루는내용◈
◆비즈니스에서해석가능성의중요성
◆선형모델,의사결정트리,나이브베이즈등본질적으로해석가능한모델학습
◆모델독립적인해석방법론을통해모델해석숙련도향상
◆이미지분류기의작동방식및모델이학습한내용시각화
◆데이터셋에서편향완화방법
◆적대적견고성으로모델의신뢰성을높이는방법
◆단조적제약조건을사용해보다공정하고안전한모델구축


◈이책의대상독자◈
◆머신러닝과파이썬프로그래밍언어에대한기초지식을가진데이터과학초보자및학생
◆자신이개발하고유지관리하는AI시스템의작동방법과개선계획을설명할중요책임이점점더늘어나는데이터전문가
◆최신해석방법론과편향완화기술을포함하도록자신의기술영역을확장하려는머신러닝엔지니어및데이터과학자
◆AI윤리와관련해더나은방향을제시하기위해AI의구현측면을더깊이이해하고자하는AI윤리담당자
◆공정성,책임성,투명성의원칙을준수하기위해해석가능한머신러닝을비즈니스에도입하려는AI프로젝트매니저및비즈니스리더


◈이책의구성◈
1장,‘해석,해석가능성,설명가능성:왜이모두가중요한가?’에서는머신러닝해석과함께해석가능성,설명가능성,블랙박스모델,투명성등과같은관련개념을소개하고모호성을피하기위해용어에관한정의를제공한다.그다음비즈니스에대한머신러닝해석가능성
의가치를논의한다.
2장,‘해석가능성의주요개념’에서는심혈관질환예측예제를사용해두가지기본개념인“피처중요도”와“의사결정영역”을소개하고,해석방법론을분류할때사용되는가장중요한분류법을살핀다.또한머신러닝해석가능성을방해하는것이무엇인지자세히설명한다.
3장,‘머신러닝해석의과제’에서는항공기지연예측문제를갖고회귀와분류모두에서머신러닝해석에사용되는전통적인방법을논의한다.그다음이런전통적인방법의한계를살펴보고“화이트박스”모델을본질적으로해석할수있게만드는요소가무엇인지,왜화이트박스모델을항상사용할수없는지설명한다.이질문에답하기위해예측성능과모델해석가능성사이의절충에대해고려할것이다.마지막으로이런절충문제에서타협하지않으려는새로운모델인“글래스박스(glass-box)”모델을살펴본다.
4장,‘피처중요도와피처영향력’에서는출생순서분류예제를사용해모델의고유한매개변수를사용하는것과같이,피처중요도를얻기위한다른방법론들과함께“순열피처중요도(PFI,PermutationFeatureImportance)”라고부르는좀더신뢰할수있는모델독립적인방법론을논의한다.그런다음에단일피처의예측에대한한계효과를확인하기위해“부분의존도플롯(PDP,PartialDependencePlot)”및“개별조건부기대치(ICE,IndividualConditionalExpectation)”그래프를렌더링하고해석하는방법을학습한다.
5장,‘글로벌모델독립적인해석방법론’에서는자동차연비회귀모델을사용해게임이론으로부터영감을받은SHAPS(HapleyAdditiveexPlanations)를자세히학습한다음,조건부주변분포인“누적지역효과(ALE,AccumulatedLocalEffects)”그래프를시각화한다.마지막으로“글로벌대체모델(GlobalSurrogate)”에대해알아본다.
6장,‘로컬모델독립적인해석방법론’에서는단일예측또는그룹예측을설명하는로컬해석방법론을다룬다.이를위해테이블데이터와텍스트데이터를모두포함하고있는초콜릿바등급분류예제를사용한다.로컬해석을위해SHAP와LIME(LocalInterpretableModel-AgnosticDescriptions)을활용하는방법을다룰것이다.
7장,‘앵커와반사실적설명’에서는로컬모델해석을계속하며,분류문제를더깊게다룬다.인간이해석할수있는방식으로불공정한예측을설명하는방법을파악하기위해재범위험예측예제를사용한다.WIT(What-If-Tool)뿐만아니라“앵커(Anchor)”,“반대사실(Counterfactuals)”,“대조적설명방법론(CEM,ContrastiveExplanationMethod)”등을소개한다.
8장,‘컨볼루션신경망시각화’에서는컨볼루션신경망(CNN)모델인과일분류기모델과함께작동하는해석방법론을집중적으로살펴본다.CNN이“활성화함수(activation)”를통해학습하는방법을파악한후,클래스속성을디버깅하기위해“돌출맵(SaliencyMaps)”,Grad-CAM,“통합그래디언트(IntegratedGradients)”등과같은몇가지그래디언트기반귀인방법론을학습한다.마지막으로“폐쇄민감도(OcclusionSensitivity)”,LIME,CEM과같은섭동기반귀인방법론을통해속성디버깅노하우를확장한다.
9장,‘다변량예측및민감도분석을위한해석방법론’에서는교통량예측문제와LSTM(LongShort-TermMemory)모델을사용해이유스케이스에통합그래디언트와SHAP를적용하는방법을다룬다.또한예측과불확실성이본질적으로어떻게연결돼있는지,입력과관련된모델출력의불확실성을측정하기위해설계된방법론중민감도분석을살펴본다.여기서는인자의우선순위를추출하는모리스(Morris)방식과인자를고정하는소볼(Sobol)방식두가지를학습한다.
10장,‘해석가능성을위한피처선택과피처엔지니어링’에서는비영리다이렉트메일링최적화문제를사용해스피어만(Spearman)상관계수와같은필터기반피처선택방법론을검토하고,Lasso와같은임베디드방법에관해알아본다.그런다음“순차적인피처선택(SequentialFeatureSelection)”과같은래퍼방법,“재귀적인피처제거(RecursiveFeatureElimination)”와같은하이브리드방법,“유전알고리듬(GeneticAlgorithm)”과같은고급방법을소개한다.마지막으로,“피처엔지니어링(featureengineering)”은일반적으로피처선택이전에수행되지만,먼지가가라앉은후에수행하는것도여러가지이유로가치가있음을살펴본다.
11장,‘편향완화및인과관계추론방법론’에서는신용카드채무불이행문제를통해원치않는편향을감지하기위해공정성메트릭및시각화를활용하는방법을배운다.그다음가중치재설정과같은전처리방법,프로세스내처리를위한이질적영향력제거기,후처리를위한“오즈균등화(equalizedodds)”등을통해편향을줄이는방법을살펴본다.그러고나서신용카드채무불이행을낮추기위한처치를테스트하고인과적모델링을활용해“평균처치효과(ATE,AverageTreatmentEffects)”와“조건부평균처치효과(CATE,ConditionalAverageTreatmentEffects)”를결정한다.마지막으로,인과적가정과추정치의견고성을테스트한다.
12장,‘해석가능성을위한단조성제약조건과모델튜닝’에서는7장의재범위험예측문제를계속해서다룬다.공정성을보장하기위해데이터측면에“피처엔지니어링”과함께가드레일을배치하고,모델에“단조적이고상호작용하는제약조건”을적용하는방법을배우는동시에여러목표가있을때모델을튜닝하는방법을배운다.
13장,‘적대적견고성’에서는얼굴마스킹탐지문제를사용해엔드투엔드적대적솔루션(end-to-endadversarialsolution)을다룬다.모델을공격하는방법에는여러가지가있지만,여기서는칼리니(Carlini)와와그너(Wagner)의“인피니티-노름(Infinity-Norm)”및“적대적패치(AdversarialPatchs)”와같은회피공격에초점을맞추고,다른형태의공격은간략하게설명한다.“공간평활전처리(spatialsmoothingpreprocessing)”와“적대적학습(adversarialtraining)”이라는두가지방어방법을설명한다.끝으로“견고성평가”방법하나와인증방법하나를보여준다.
14장,‘머신러닝해석가능성그다음단계는?’에서는머신러닝해석가능성방법론의생태계의맥락에서학습한내용을요약한다.