능력치 만렙 SRE (관측 가능성, 자동화, 장애 대응을 넘어 독보적인 커리어 구축까지 | Paperback)

능력치 만렙 SRE (관측 가능성, 자동화, 장애 대응을 넘어 독보적인 커리어 구축까지 | Paperback)

$40.00
Description
새벽 3시의 장애 알림에도 흔들리지 않는 압도적 신뢰성의 비밀,
대체 불가능한 '능력치 만렙 SRE'로 거듭나는 완벽한 실무 가이드!
이 책은 깃옵스와 쿠버네티스를 활용한 파이프라인 자동화부터 부하 테스트, 카오스 엔지니어링 등 SRE가 반드시 알아야 할 핵심 기술을 실무 밀착형 실습과 함께 제공한다.

단순한 기술 서적을 넘어, 피 말리는 장애 상황에서 빛을 발하는 런북 작성법, 비난 없는 사후 분석, 그리고 이해관계자들과의 효과적인 소통 전략까지 험난한 IT 현장의 생생한 노하우를 아낌없이 담아냈다.

여기에 구직자를 위한 날카로운 면접 및 연봉 협상 팁, 12팩터(12-Factor) 기반의 시스템 진단법까지 아우르고 있어, 클라우드 네이티브 시대에 비즈니스를 구원하는 최정예 엔지니어로 성장하고 싶은 모든 이를 위한 단 하나의 바이블이다.
저자

제레미프로핏

JeremyProffitt
1977년생으로,끊임없이시스템을개선하고누구보다빠르게문제를해결하는데몰두하는SRE의정석과도같은인물이다.엔지니어링에대한집요한태도는시스템을더완성도높게만드는원동력이다.솔루션과기술지식의대가이며,AWS아키텍처및데브옵스프로페셔널자격증을보유한능력치만렙SRE로서경력내내수백만달러에달하는잠재적매출손실을막아냈다.‘능력치만렙’이라는별명에걸맞게여가시간에는자신의기술아지트에서3D프린팅,전자공학,IoT프로젝트에몰두한다.현재최고의SRE및데브옵스인재들로구성된팀을이끌며지속적인개선을주도하고있다.회사내에서는관측가능성및비상대응분야의선구자로불린다.

목차

1부-SRE핵심이해:역할,업무,필요성

01장SRE직무:주요활동과책임
개인성장의과정
__SRE의원동력
__SRE의역량
__SRE의특징
사고방식과취미
__SRE성향테스트
__SRE의기본원칙
__SRE의취미
데브옵스엔지니어vsSREvs또다른엔지니어
__데브옵스엔지니어와SRE
__소프트웨어엔지니어와SRE
주요책임
__운영업무책임
__엔지니어링업무책임
일상업무
__대응업무
__예방업무
영감을주는사람들
__제레미의감사:폴티마
__로드의감사:인고아버덩크,진브라운
요약
더읽을거리

02장핵심수치:신뢰성통계
SLA협약:숫자를넘어선소통
__내부파트너를위한SLA
__외부파트너를위한SLA
__9의가치
__SLA마무리
SLO및SLI정의와효과적인활용법
__SLO
__SLO와측정기간
MTBF를활용한서비스중단빈도추적
MTTR을활용한서비스중단시간측정
수익및고객영향도분석
__서비스중단투명성확보
__능력치만렙SRE의SLA
요약

03장위험한습관:임시방편아키텍처와스파게티코드
비용으로보는소프트웨어개발사업
__소프트웨어의가치
__사업보호의가치
__사업성장의가치
__인건비절감의가치
A/B테스트사고방식
__고객상호작용과A/B테스트
__A/B테스트결과분석
__분기실적과A/B테스트
개발자의헌신과직업의식
__효과적인소통방법
병합요청검토
__형식적인승인은금물
__운영환경배포시고려사항
모범사례를외면하는이유
__개발자업무소유권
__개발비용추정의결함
__속도,품질,비용:선택의문제
__관측가능성:신뢰성문제의해답
__고가용성과비용
나쁜코드개선전략
__장애알림
__로깅강화
__예외처리
__신중한재시도
요약


2부-사이트신뢰성엔지니어링을위한관측가능성구현

04장관측의필수요소:메트릭,이벤트,로그,트레이스
기술요구사항
시스템모니터링과원격측정법
__인프라모니터링
__모니터링종류와도구
__골든시그널모니터링
__데이터모니터링
APM의이해
토폴로지자가발견,폭발반경,예측가능성및상관관계
경보:조용하게하는기술
__사용자관점알림발생원칙
__인시던트이벤트연결원칙
모든것을활용한관측가능성
__시스템중단vs중단시간
__관측가능성아키텍처
__관측가능성효과
실습:학습내용적용
__실습아키텍처
__실습내용
__실습지침
요약
더읽을거리

05장해결전략:트러블슈팅정복
문제의올바른정의와올바른질문
__정보의출처
__제보자의지식수준
__이름규칙
__잘못된긴급성
__실행요약
분석과테스트를위한시스템
__하드웨어와운영체제의분해
__웹API분해
__단계이해
__중간지점문제해결방법론의문제점
작은문제를확인하기위한과거,일반적인이벤트
__기존의근본원인분석문서
__시계열분석
__비교
__최선의방법
인터넷과동료를통한효과적인검색
__구글검색의기술
__빠른검토와개선
__내부자원활용
효율적인소스코드분석
__생소한코드
__실패를했을경우
코드와로그
실습:학습내용적용
요약

06장운영프레임워크:인프라와시스템관리
기술요구사항
시스템관리의학문적접근
__설계
__설치
__설정
__애플리케이션배포
__운영
__업그레이드
__삭제
IT서비스운영의이해
__ITIL
__데브옵스
다양한계층과다양한분야로서시스템운영의접근
시스템구축과운영자동화
__코드로서의인프라
__변하지않는인프라
실습:학습내용적용
__실습아키텍처
__실습내용
__실습지침
요약
더읽을거리

07장데이터활용:관측가능성데이터과학
기술요구사항
데이터기반의사결정
__질문과선택지정의
__데이터선택
__이미사용가능한데이터확인
__누락데이터수집
__모든데이터세트종합분석
__의사결정기록제시
__프로세스에서얻은교훈문서화
과학적접근법을통한문제해결
__질문
__가설
__예측
__실험
__분석
가장일반적인통계방법이해
__백분율
__평균,산술평균,표준편차
__분위수와백분위수
__히스토그램
관측가능성에수학모델활용
__몬테카를로시뮬레이션
__머신러닝
그라파나로도수분포표시각화하기
실습:학습내용적용
__실습아키텍처
__실습내용
__latency.py
__실습설명
요약
더읽을거리


3부-신뢰성을위한아키텍처적용

08장신뢰할수있는아키텍처:시스템전략및설계
기술요구사항
신뢰성을위한설계
__아키텍처측면
__신뢰성방정식
__설계패턴
__모던애플리케이션
워크로드의분할과밸런싱
__분할
__분산
페일오버
스케일업과스케일아웃:수평vs수직
__수평스케일링
__수직스케일링
__오토스케일링
실습:학습내용적용
__실습아키텍처
__실습내용
__실습지침
요약
더읽을거리

09장자동화의가치:단순반복작업의발견과제거
기술요구사항
단순반복작업제거
__단순반복작업의재정의
__단순반복작업이나쁜이유
__단순반복작업을잘처리하는방법
소프트웨어문제로다루는자동화
__문서화
__알고리듬
__코드
CI/CD파이프라인
__지속적인통합
__지속적인전달
__운영배포
실습:학습내용적용
__실습아키텍처
__실습내용
__실습지침
요약
더읽을거리

10장파이프라인공개:깃옵스및테스트필수요소
기본파이프라인:인프라,코드배포를위한자동화
__시간순서를갖는파이프라인
__파이프라인템플릿
__파이프라인의에러또는중단
__파이프라인내에서컨테이너사용
__파이프라인아티팩트
__파이프라인문제해결팁
컴플라이언스,보안검사자동화
__오래된라이브러리
__애플리케이션보안테스트
__동적애플리케이션보안테스트
__정적애플리케이션보안테스트
__비밀정보검사
린트를이용한코드품질,표준자동화
__린트피드백을활용한컴파일
기능검증을위한테스트자동화
__신뢰성과테스트의연관성
__테스트데이터
__테스트의다양한유형
__파이프라인테스트시기
__테스트의관측가능성
__자동롤백
자동화에따른개발자의단순반복작업감소
__단순반복작업을줄이는의미
실습:학습내용적용
__실습을위한AWS준비
__저장소생성
__저장소에비밀정보추가
__실습파일다운로드와커밋
__파이프라인이해
__스텝추가
__배포없이테스트만실행
__마지막처리
요약

11장작업군단:서버리스,컨테이너,쿠버네티스의오케스트레이션
기술요구사항
서버리스의다양한정의
__서버리스프레임워크
__서버리스컴퓨팅
__서버리스함수
__서버리스함수모니터링
__에러
컨테이너가사랑받는이유
__격리
__불변성
__배포용이성
__태깅
__롤백
__보안
__서명
__컨테이너모니터링
쿠버네티스와기타컨테이너오케스트레이션방법
__헬스체크
__충돌과강제종료된컨테이너
__HTTP기반부하분산
__서버부하분산
__서비스로서의컨테이너(CaaS)
__간단한컨테이너오케스트레이션
쿠버네티스
다양한배포기술
__전통적인교체배포
__롤링배포
__A/B또는블루그린배포
__카나리배포
배포자동화와롤백
__롤백메트릭
__롤백시점
__롤백방식
실습:학습내용적용
__깃포드활용:컨테이너화된작업공간
__에뮬레이션소스코드
__에뮬레이션실행
요약

12장최종점검:테스트전략과용량설계
기술요구사항
다양한테스트유형
__개발단계테스트
__빌드단계테스트
__전달단계테스트
__배포단계테스트
__운영단계테스트
테스트주도개발
__고전적인단위테스트
__프레임워크를사용한단위테스트
테스트자동화프레임워크활용
용량계획을통한선제적대응
__부하테스트데이터
__용량곡선
__수요곡선
실습:학습내용적용
__실습아키텍처
__실습내용
__실습절차
요약
더읽을거리

4부-장애상황완벽대응

13장첫번째과제:운영절차서와저소음장애알람
기술요구사항
훌륭한운영절차서의조건
__살아숨쉬는운영절차서
__독자의지식수준
__접근권한관리
__핵심구성요소
운영절차서너머의통찰
__소스코드신속분석
__코드속핵심정보찾기
__이해를돕는주석
좋은대시보드의요건
__대시보드의유형
__적색신호와녹색신호
__추세표시
__집계및세부분석
__대시보드와알림
우선순위수준
__대응노력
__엔지니어이탈방지
__장애관리시스템과우선순위
__장애관리시스템과스마트폰통합
__P1이벤트
__우선순위정의
__관측가능성장애의우선순위수준
__우선순위강제
__알림조정
__로그기반알림
__알림중지
실습:학습내용적용
__우선순위수준정의
__운영절차서
__알림
요약

14장신속대응:장애관리기법
협업공간전략
__온라인협업
__대면협업
__장애대응기록의활용
__참여자
__후속조치
장애대응인력활용법
__업무배분
__대응참여자의성격유형
__휴식전략과스트레스관리
적시대응의중요성과기회
__훈련기회
__운영문서최신화
__팀워크강화
__경영진을향한전략적소

출판사 서평

◈내용소개◈

1. 파이프라인구축과빈틈없는테스트자동화

깃옵스기반의CI/CD파이프라인부터컨테이너,서버리스,쿠버네티스오케스트레이션까지현대적인클라우드네이티브아키텍처의작동원리를파헤친다.
나아가TDD,퍼즈테스트,k6부하테스트등다양한테스트전략과용량계획을통해운영환경에배포하기전부터시스템의신뢰성을견고하게다지는방법을배운다.

2. 피말리는장애상황을압도하는체계적인위기관리

실효성있는런북작성법과저소음알림설정으로엔지니어의피로도를줄이고,예측불가능한장애상황에서팀을지휘하는실전소통전략을제시한다.
또한장애를성장의기회로바꾸는'비난없는사후분석'을통해근본원인을규명하고,장기적인해결책을비즈니스관점에서도출한다.

3. 카오스엔지니어링과대체불가능한커리어설계

'불운의수레바퀴'게임과카오스엔지니어링을통해운영환경에의도적으로장애를주입하며,시스템의한계를테스트하고내결함성을극한으로끌어올린다.
여기에SRE채용시장의현실적인면접팁,연봉협상노하우,12팩터(12-Factor)기반의시스템진단법까지수록하여조직이탐내는핵심인재로성장하는길을안내한다.


◈이책의대상독자◈

SRE역할을목표로하는개발자부터기술을마스터하려는시스템관리자,그리고조직내반복되는서비스중단을경험하는경영진에이르기까지모든IT전문가에게추천한다.또한고객에게미치는영향을줄이고수익손실을막으면서개발처리량을높이기위해조직에신뢰성과자동화를도입하는데관심있는모든사람에게도움이될것이다.책을읽는동안API및웹아키텍처에대한기본적인이해와클라우드컴퓨팅및서비스에대한약간의경험이있다면이해하기수월할것이다.


◈이책의구성◈

1장,SRE직무:주요활동과책임에서는SRE의역할에대해다루며,SRE가누구인지설명한다.
2장,핵심수치:신뢰성통계에서는사이트신뢰성엔지니어링작업과비즈니스영향이어떻게측정되는지보여준다.
3장,위험한습관:임시방편아키텍처와스파게티코드에서는시스템이왜본질적으로신뢰할수없는지설명한다.
4장,관측의필수요소:메트릭,이벤트,로그,트레이스에서는모니터링에서진정한관측가능성으로나아가는방법을살펴본다.
5장,해결전략:트러블슈팅정복에서는SRE방식으로정확하고간결하게문제를해결하는방법을알아본다.
6장,운영프레임워크:인프라와시스템관리에서는SRE가엔지니어링업무뿐만아니라운영업무를다루는이유와방법을설명한다.
7장,데이터활용:관측가능성데이터과학에서는SRE를위한기본적인수학모델과통계적방법을설명한다.
8장,신뢰할수있는아키텍처:시스템전략및설계에서는신뢰성에적용되는시스템사고와신뢰할수있는아키텍처패턴을설명한다.
9장,자동화의가치:단순반복작업의발견과제거에서는사이트신뢰성엔지니어링의핵심기둥인운영확장성에대해독자가익숙하게만든다.
10장,파이프라인공개:깃옵스및테스트필수요소에서는데브옵스전달파이프라인내에서신뢰성을활용하는방법을설명한다.
11장,작업군단:서버리스,컨테이너및쿠버네티스의오케스트레이션에서는워크로드관리가시스템의신뢰성에어떤영향을미치는지알아본다.
12장,최종점검:테스트전략과용량설계에서는좋은테스트와용량계획이어떻게시스템성능을앞서게하는지보여준다.
13장,첫번째과제:운영절차서와저소음장애알람에서는잘설계된절차와알림이SRE를문제에대비시키는방법을살펴본다.
14장,신속대응:장애관리기법에서는SRE의긍정적인행동과중요한장애중에해결을향한상호작용을유지하는방법을알아본다.
15장,솔직한사후분석:장기적인해결책에서는사후분석이어떻게시스템을더신뢰할수있게만드는조치로이어져야하는지를알아본다.
16장,카오스주입기:고급시스템안정성에서는SRE가시스템에혼돈(chaos)을주입해더많은것을배우고게임화를사용해기술을연마하는방법을명확히한다.
17장,면접조언:채용과구직에서는회사가SRE를어떻게채용해야하는지,그리고SRE가면접중에자신의지식을어떻게보여줘야하는지를보여준다.
부록A,사이트신뢰성엔지니어선언문에서는전세계모든SRE의주요책임을알아본다.
부록B,12팩터선언문적용에관한설문에서는헤로쿠의〈The12-FactorApp〉선언문에따라애플리케이션설계가신뢰할수있는지테스트하기위한질문들을살펴본다.