관측 가능성과 근본 원인 분석으로 완성하는 AIOps (반양장)

관측 가능성과 근본 원인 분석으로 완성하는 AIOps (반양장)

$45.00
Description
실패하지 않는 관측 가능성과 AIOps 데이터 기반 운영
이 책은 관측 가능성을 기반으로 분산 추적, 메트릭, 로그, 이벤트, 시스템 추적, 프로파일까지 이어지는 전 구간 관측과 데이터 구조화 전략을 통해 근본 원인 분석(RCA)의 실제 작동 원리를 체계적으로 설명한다. 프롬스케일 기반 SQL 분석, 메트릭 상관관계와 이상 탐지를 통해 장애의 범위를 좁히고, 나아가 오픈서치 기반 RAG/LLM, 벡터 임베딩/리랭킹, 에이전트 자동화, CMDB와 장애 목록 데이터 모델을 결합해 근본 원인 분석을 자동화하는 AIOps 아키텍처를 제시한다. SRE를 중심에 두고 AIOps를 보조 지능으로 활용하는 현실적인 운영 전략의 묘를 터득할 수 있다.
저자

정현석

액센츄어,맥쿼리그룹에서시스템엔지니어로근무했고,현재SK하이닉스에서쿠버네티스기반데이터플랫폼을구축하고있다.고랭기반의컨트롤러,웹훅,스케줄러를최적화하고,배포부터모니터링까지전구간의성능과관측가능성을개선하고있다.커널,클러스터,레거시,마이크로서비스등다양한시스템에서지연과에러를식별해근본원인분석과IT운영자동화를이루고나아가AIOps가구현될수있도록노력중이다.다양한기술에AI를접목하여기존에는어려웠던작업들이개선되는것을확인하며,AI전환을연구하고있다.

목차

이책에대하여x

CHAPTER1근본원인분석이란1
1.1관측가능성2
__1.1.1상관관계5/1.1.2대시보드8/1.1.3기술스택9
1.2근본원인분석과정11
__1.2.1문제영역식별12/1.2.2개별요청분석17/1.2.3하위수준이해24
1.3관측가능성신호31
__1.3.1로그31/1.3.2실사용자모니터링38/1.3.3프로파일49
__1.3.4디버깅57/1.3.5이벤트59/1.3.6이상치63
__1.3.7근본원인분석데이터모델64
1.4요약66

CHAPTER2근본원인분석의접근법67
2.114가지상관관계68
__2.1.1분산추적에서시스템추적으로69/2.1.2이벤트에서추적으로70
__2.1.3추적에서로그로71/2.1.4추적에서프로파일로71
__2.1.5로그에서프로파일로72/2.1.6메트릭에서추적으로72
__2.1.7실사용자모니터링에서추적으로73/2.1.8이벤트에서이상탐지로74
__2.1.9로그에서추적으로74/2.1.10네트워크에서추적으로75
__2.1.11추적에서메트릭으로76/2.1.12추적에서서비스맵으로76
__2.1.13서비스맵에서메트릭으로77/2.1.14메트릭에서로그로77
2.2시각화78
__2.2.1폴리스탯78/2.2.2서비스맵79/2.2.3히스토그램80
__2.2.4히트맵81/2.2.5시계열차트82/2.2.6플레임그래프82
__2.2.7스테이트타임라인83/2.2.8스테이트83
__2.2.9추적84/2.2.10애너테이션84
2.3대시보드개발84
2.4요약87

CHAPTER3추적중심의관측가능성89
3.1추적과다른신호들90
3.2추적의작동방식91
__3.2.1콘텍스트94/3.2.2전파자95/3.2.3추적전파100
__3.2.4배기지전파105/3.2.5오픈트레이싱심106
3.3관리형서비스의전파108
__3.3.1AWS클라우드프런트데모110/3.3.2GCPPub/Sub데모114
__3.3.3애저SQS데모121
3.4메시지서버의전파128
__3.4.1솔러스JMS데모129/3.4.2팁코JMS데모132
__3.4.3MQTT데모134/3.4.4카프카데모136
__3.4.5스프링클라우드스트림데모138
3.5EAI서버의전파141
__3.5.1추적구현의어려움143/3.5.2BPM서버의계측144
3.6블랙박스의전파144
3.7서버프레임워크의전파146
__3.7.1미들웨어146/3.7.2마이크로서비스패턴147
__3.7.3AWS및GCPAPI서버148/3.7.4상용관측가능성SDK추적데모149
__3.7.5마이크로미터추적데모151/3.7.6상용관측가능성과오픈텔레메트리데모152
__3.7.7웹소켓데모154
3.8오픈텔레메트리익스텐션159
__3.8.1바이트코드계측데모161/3.8.2익스텐션데모164
__3.8.3익스텐션디버깅169
3.9상용관측가능성의전파171
__3.9.1상용관측가능성의자동화173/3.9.2에이전트카오스177
3.10요약183

CHAPTER4산업별근본원인분석사례184
4.1은행의관측가능성185
__4.1.1은행프로세스의특성186/4.1.2은행레거시192/4.1.3은행데모212
4.2통신사의관측가능성226
__4.2.1통신사의업무227/4.2.2통신사오케스트레이션서버230
__4.2.3통신사아키텍처232/4.2.4주문오케스트레이션240
__4.2.5네트워크프로비저닝245
4.3온라인게임의관측가능성249
__4.3.1온라인게임운영250/4.3.2온라인게임데모252
__4.3.3로그254/4.3.4메트릭255/4.3.5추적256
4.4증권사의관측가능성258
__4.4.1초저지연애플리케이션개발258/4.4.2초저지연서버사례270
4.5요약272

CHAPTER5오픈텔레메트리데모274
5.1데모개요275
__5.1.1애플리케이션276/5.1.2파이프라인277/5.1.3피처플래그277
__5.1.4배포278/5.1.5부하테스트278
5.2SLO278
__5.2.1대시보드279/5.2.2가용성과에러율282
__5.2.3데모의에러구현283/5.2.4차트285
5.3관측가능성데모286
__5.3.1프로파일지원287/5.3.2오픈텔레메트리에이전트292
__5.3.3오픈텔레메트리컬렉터292/5.3.4실사용자모니터링294
__5.3.5자동계측296/5.3.6상용관측가능성데모298
__5.3.7라이브디버깅299/5.3.8배기지콘텍스트301
__5.3.9스팬속성301/5.3.10스팬애너테이션305
__5.3.11프롬스케일쿠버네티스308/5.3.12프롬스케일SQL314
5.4요약316

CHAPTER6인프라근본원인분석317
6.1시스템추적319
__6.1.1KUtrace321/6.1.2비정상적근본원인의유형325
__6.1.3ftrace336/6.1.4ftrace의시각화339/6.1.5시스템유틸리티341
6.2커널작동방식과개발341
__6.2.1커널의주요개념과작동방식342/6.1.2커널개발351
6.3eBPF356
__6.3.1BCC와bpftrace357/6.3.2PCP367
6.4네트워크장애카오스엔지니어링데모373
__6.4.1카오스메시구성374/6.4.2쿠버네티스구성376/6.4.3재전송분석377
6.5eBPF와실리움380
__6.5.1메트릭381/6.5.2허블383/6.5.3그라파나플러그인386
6.6실리움과L7네트워크386
__6.6.1골든시그널388/6.6.2문제감지388/6.6.3추적연계389
6.7실리움L7네트워크장애데모389
__6.7.1구성390/6.7.2실리움배포391/6.7.3coreapi배포394
__6.7.4외부서비스의연계에러394/6.7.5coreapi에러율증가394
__6.7.6추적전파395
6.8실리움추가기능397
__6.8.1네트워크정책397/6.8.2L3정책399/6.8.3L7정책401
__6.8.4멀티클러스터와서비스메시402/6.8.5인그레스403
6.9요약403

CHAPTER7인프라이상탐지405
7.1이상치406
7.2SQL이상탐지406
__7.2.1이상탐지방법407/7.2.2이상치형태410
7.3머신러닝이상탐지411
__7.3.1오픈서치데이터셋413/7.3.2이상탐지작업절차413
__7.3.3비율분석416/7.3.4카테고리분석418/7.3.5모집단분석419
__7.3.6패턴분석422/7.3.7버킷분석422
7.4이상탐지결과분석424
__7.4.1결과분석방법424/7.4.2결과분석API425
7.5이상탐지구성430
__7.5.1오픈서치이상탐지구성데모430/7.5.2감지기고려사항434
7.6요약435

CHAPTER8관측가능성데이터분석436
8.1SQL데이터분석438
__8.1.1시간윈도438/8.1.2누적값계산439/8.1.3계절성분석440
8.2프롬스케일441
__8.2.1프롬스케일저장과정442/8.2.2프롬스케일메서드442
8.3프롬스케일데모444
__8.3.1메트릭SQL445/8.3.2메트릭SQL데모446
__8.3.3추적SQL451/8.3.4추적SQL데모452
8.4요약459

CHAPTER9관측가능성데이터집계460
9.1프레스토사례461
__9.1.1하이브463/9.1.2테이블준비463/9.1.3프레스토특징464
__9.1.4프레스토구성465
9.2아파치드루이드사례471
__9.2.1드루이드컴포넌트472/9.2.2성능개선476
__9.2.3드루이드관측가능성483
9.3요약491

CHAPTER10AIOps492
10.1개요492
10.2AIOps의한계493
__10.2.1사례1:스레드풀494/10.2.2사례2:자바가상머신494
__10.2.3사례3:엔진엑스495
10.3AIOps의두가지측면496
__10.3.1상관관계비교분석496/10.3.2근본원인분석질의응답497
10.4AIOps상관관계497
__10.4.1메트릭상관관계데모구성498/10.4.2메트릭상관관계데모실행500
10.5IT운영데이터505
__10.5.1대시보드507/10.5.2높은품질의데이터508/10.5.3CMDB509
10.6장애목록데이터모델512
__10.6.1시스템리소스장애514/10.6.2클러스터장애514
__10.6.3서버프레임워크장애515/10.6.4레거시미들웨어장애515
__10.6.5데이터파이프라인장애519/10.6.6데이터정합성장애519
__10.6.7관측가능성장애521
__10.6.8근본원인분석데이터모델과장애목록데이터모델522
10.7요약523

CHAPTER11RAG와MCP를활용한AIOps524
11.1랭체인525
__11.1.1LLM526/11.1.2프롬프트템플릿527/11.1.3체인527
__11.1.4에이전트527/11.1.5도구529/11.1.6메모리530
11.2관측가능성데이터검색을위한벡터데이터베이스530
__11.2.1시맨틱검색531/11.2.2오픈서치벡터데이터베이스532
__11.2.3랭체인벡터데이터베이스539
11.3오픈서치AIOps540
__11.3.1오픈서치RAG542/11.3.2관측가능성RAG552
__11.3.3근본원인분석RAG556
11.4RAG고급기능563
__11.4.1리랭킹563/11.4.2자연어처리567/11.4.3가드레일568
__11.4.4RAG데이터관리570/11.4.5후속처리571
11.5MCP근본원인분석에이전트573
__11.5.1MCP573/11.5.2에이전트워크플로580
__11.5.3랭그래프585
11.6AI관측가능성을위한OpenLLMetry596
__11.6.1워크플로수동계측599

출판사 서평

AI시대SRE를위한최고의AIOps바이블
AI에이전틱코딩시대,소프트웨어엔지니어링의핵심은코드작성이아니라서비스운영역량이라는과감한주장까지나오고있다.장기간안정적으로시스템을운영하는SRE의중요성이부각된다는것이다.
이책은이러한시대적요구에부응하는,AI시대의SRE를위한바이블같은책이다.관측가능성에서AIOps까지의긴흐름을따라가며,시스템장애를어떻게이해하고설명할수있는지상세하게풀어낸다.로그나메트릭을나열하는데그치지않고,관측가능성데이터가실제로근본원인분석에어떻게사용되는지에초점을맞춘점이인상적이다.
현대IT인프라는애플리케이션,미들웨어,클러스터,네트워크,커널,하드웨어가복잡하게얽혀있으며,장애원인은단일지점이아닌신호의상관관계속에숨어있다.이에분산추적,메트릭,이벤트와같은서로다른신호를데이터관점에서구조화하고분석하는과정을구체적으로설명한다.은행,통신사,온라인게임등산업별사례를수록한것도큰장점으로서,단순한도구소개가아니라운영데이터를어떻게해석하고연결해야하는지에대한사고과정을깨우치게한다.
한편으로는인프라저수준까지내려가들여다보는만큼따라가기만만한책은아니지만,현장에서장애대응과분석을반복한경험이있다면,이책이제시하는관점에공감할지점이많을것이다.이론,도구,알고리즘,데이터모델,그리고현장에서바로적용가능한운영전략까지,관측가능성을단순한유행어가아닌실질적인분석도구로이해하고싶은모든엔지니어에게좋은길잡이가되는책이다.

대상독자
●관측가능성을자동화하고AIOps를이해하고싶은데이터엔지니어
●근본원인을신속하게식별하고해결책을이해하고싶은SRE
●레거시가많은금융,통신사에근무하지만새로운관측가능성을도입하고싶은운영자
●관측가능성을기술적으로고도화하고비즈니스적인가치를이해하고싶은아키텍트
●테크기업과대기업의관측가능성베스트프랙티스가궁금한개발자

주요내용
●관측가능성신호기반애플리케이션/인프라전구간통합관측
●분산추적/스팬메트릭과시스템추적(eBPF/KUtrace/ftrace)의상관분석
●프롬스케일기반메트릭/추적SQL분석과데이터구조화전략
●메트릭상관관계분석과k-NN/RCF기반이상탐지기법
●오픈서치기반이상탐지/벡터DB/RAG/LLM질의응답시스템
●CMDB/장애목록데이터모델/에이전트를결합한AIOps자동화