Description
엘라스틱을 활용해 벡터 검색과 가관측성, 사이버 보안, 챗GPT 통합을 최적화하는 방법을 배워보자!
자연어 처리(NLP)는 주로 검색 사례에 활용되지만, 이 책은 벡터를 활용해 가관측성과 사이버 보안 같은 중요한 도메인 과제를 해결하는 데 영감을 주는 것이 목표입니다. 각 장은 벡터 검색과 엘라스틱을 통합해 검색 사례뿐만 아니라 가관측성과 사이버 보안 기능도 개선하는 데 초점을 맞춥니다.

이 책은 먼저 NLP와 NLP 프로세스에서 엘라스틱의 기능을 소개합니다. 다음으로 자원 요구사항을 파악하고 빠른 응답 시간을 위한 특정 페이지 캐시 요구사항과 함께 벡터가 밀집 벡터(dense vector) 유형에 어떻게 저장되는지 알아봅니다. 계속 읽다 보면 노드 스케일링, 설정 튜닝, Rally와 파이썬을 사용한 부하 테스트 등 머신러닝 모델 배포를 개선하려는 다양한 튜닝 기법과 전략을 발견하게 됩니다. 또한 이미지를 활용한 벡터 검색 기법, 성능 향상을 위한 모델 미세 조정, 엘라스틱서치에서 이미지 유사성 검색을 위한 CLIP 모델 사용법도 다룹니다. 마지막으로, RAG(retrieval-augmented generation, 검색 증강 생성)를 살펴보고 벡터화된 데이터, ELSER의 기능, RRF의 정제된 검색 메커니즘을 활용하는 데 챗GPT와 엘라스틱서치를 통합하는 방법을 배웁니다.

이 책을 다 읽고 나면 엘라스틱을 활용해 프로젝트에서 벡터 검색을 구현하고 최적화하는 데 필요한 모든 기술을 갖추게 됩니다.

★ 이 책에서 다루는 내용 ★

◎ 벡터 검색 기능을 활용해 성능 최적화하기
◎ 이미지 벡터 검색과 그 활용 분야 탐구하기
◎ 개인 식별 정보 탐지 및 마스킹하기
◎ 차세대 가관측성을 위한 로그 분석 및 검색 구현하기
◎ 사이버 보안을 위한 벡터 기반 봇 탐지 활용하기
◎ 벡터 공간 시각화 및 엘라스틱의 최신 검색 기능 살펴보기
◎ 스트림릿(Streamlit)을 활용한 RAG 강화 애플리케이션 구현하기

저자

바할딘아자르미,제프베스탈

저자:바할딘아자르미(BahaaldineAzarmi)
일래스틱의글로벌고객엔지니어링부사장으로,기업이데이터아키텍처,분산시스템,머신러닝,생성형AI를잘활용하게안내한다.클라우드사용에중심을둔고객엔지니어링팀을이끌고AI분야에서숙련된커뮤니티를구축하고지식을공유하여영감을주는데열정을쏟고있다.

저자:제프베스탈(JeffVestal)
금융거래회사에서10년이상의경력을쌓으며얻은풍부한배경지식과일래스틱서치에대한폭넓은경험을갖추고있다.운영능력,엔지니어링기술,머신러닝전문지식이라는독특한조합을가지고있다.일래스틱서치의수석고객엔터프라이즈아키텍트로일하면서일래스틱서치의고급검색기능,머신러닝기능,생성형AI통합을활용해사용자가복잡한데이터문제를실행할수있는인사이트를얻을수있도록능숙하게안내하는혁신적인솔루션을만드는데탁월한역량을갖추고있다.

역자:한우선
삼성SDS수석엔지니어로,다양한대형프로젝트와솔루션구축업무를수행했다.현재는생성형AI관련개발을리딩하고있으며,AI를활용한고객경험향상에앞장서고있다.

역자:백승민
삼성SDS에서시멘틱검색시스템설계를담당하고있다.엘라스틱을활용한업무를수년간진행했으며최근에는AI를이해하고활용하여새로운가치를만들어내기위해발버둥치고있다.

역자:유태황
삼성SDS에서소프트웨어아키텍트및프로그래머로일하고있다.스프링부트,카프카,엘라스틱서치등다양한백엔드기술스택및효율적인아키텍처에관심이많다.

목차

[1부]벡터검색의기본

01:벡터와임베딩소개
1.1벡터검색에서지도학습과비지도학습의역할살펴보기
___임베딩/벡터란무엇인가요?
___벡터는어떤문제를해결하는데사용하나요?
___개발자환경
___허깅페이스(HuggingFace)
___시장환경과개발자경험의가속화
1.2사용사례및적용분야
___AI기반검색
___개체명인식(NER)
___감성분석
___텍스트분류
___질의응답(QA)
___텍스트요약
1.3엘라스틱은이분야에서어떤역할을하고있나요?
___가관측성및사이버보안에대한기본개념
요약

02:엘라스틱에서벡터검색시작하기
2.1벡터검색이전엘라스틱에서의검색경험
___데이터유형이관련성에미치는영향
___관련성모델
2.2검색경험의발전
___키워드기반검색의한계
___벡터표현
2.3새로운벡터데이터유형과벡터검색쿼리API
___희소벡터와밀집벡터
___엘라스틱클라우드시작하기
___밀집벡터매핑
___완전탐색kNN검색(Brute-forcekNNsearch)
___kNNsearch
요약

[2부]고급애플리케이션및성능최적화

03:엘라스틱에서의모델관리와벡터고려사항
3.1허깅페이스
___모델허브
___Datasets
___Spaces
3.2Eland
___허깅페이스에서엘라스틱서치로임베딩모델가져오기
___엘라스틱서치인증구성하기
___허깅페이스허브에서모델가져오기
___모델다운로드
___엘라스틱서치내부에모델적재하기
___모델시작하기
___모델배포하기
___질의벡터만들기
3.3엘라스틱서치내부에서벡터만들기
3.4클러스터자원계획수립하기
___CPU및메모리관련요구사항
___디스크요구사항
___인덱스디스크사용량분석API
3.5머신러닝노드용량
3.6스토리지효율성전략
___차원축소
___양자화
___source에서dense_vector제외하기
요약

04:성능튜닝?데이터를통한확인
4.1NLP모델배포
___엘라스틱서치에모델적재하기
___모델배포와관련된설정
4.2부하테스트
___Rally
___메모리(RAM)사용량예측
___속도저하문제해결
요약

[3부]특수사용사례

05:이미지검색
5.1이미지검색개요
___이미지검색발전
___이미지검색방식
___벡터유사도검색의역할
___이미지검색사례
5.2이미지벡터검색
___이미지벡터화
___엘라스틱서치에이미지벡터색인하기
___k-최근접이웃(kNN)검색
___이미지검색분야의해결과제와한계
5.3벡터검색을위한멀티모달(Multi-modal)모델
___멀티모달의필요성
___멀티모달모델의벡터공간에대한이해
___OpenAIclip-ViT-B-32-multilingual-v1모델소개
___다양한미디어유형에벡터검색적용하기
요약

06:엘라스틱서치를활용한개인식별정보제거
6.1PII및제거(redaction)개요
___PII가포함될수있는데이터유형
___로그에저장된PII의위험성
___PII가유출및분실되는유형
6.2NER모델과정규식패턴을사용한PII제거
___NER모델
___정규식패턴
___PII제거를위한NER모델과정규식(Grok)패턴의결합
6.3엘라스틱서치의PII제거파이프라인
___가짜PII만들기
___기본파이프라인설정
___기대결과
6.4PII제거파이프라인확장및상세설정을위한옵션
___기본PII예시사용자정의(customizing)하기
___신규데이터스트림을위한파이프라인복제및신규버전만들기
___특정데이터세트를위한NER모델미세조정
___맥락인식기술의필요성과적용방법
요약

07:벡터기반차세대가관측성(Observability)
7.1현대소프트웨어시스템에서가관측성과그중요성에대한소개
___가관측성-주요요소
___로그분석과가관측성에서의그역할
7.2로그분석에벡터와임베딩을적용하는새로운접근방식
___접근방식1-로그를위한기존모델훈련또는미세조정
___접근방식2-사람이이해할수있는설명을생성한후벡터화
7.3로그벡터화
___합성로그
___OpenAI를활용한로그확장
7.4로그시맨틱검색
___로그벡터색인
___모델적재
___수집파이프라인
___시맨틱검색
요약

08:벡터와임베딩이사이버보안강화에미치는영향
8.1이메일피싱탐지의중요성이해
___피싱이란?
___다양한유형의피싱공격
___피싱공격의빈도에관한통계
___피싱이메일탐지의도전과제
___자동탐지의역할
___자연어처리기술로기존기술보완
8.2ELSER소개
8.3생성형AI에서ELSER의역할
8.4엔론이메일데이터세트(ham또는spam)
8.5ELSER가작동하는것을보기
___하드웨어고려사항
___엘라스틱서치에ELSER모델다운로드
___인덱스설정과데이터수집파이프라인세팅
___ELSER를활용한시맨틱검색
___ELSER의한계점
요약

[4부]혁신적인통합과미래방향

09:엘라스틱을통한검색증강생성
9.1ELSER와RRF를활용한RAG강화검색준비하기
___ELSER를활용한시맨틱검색
___RAG에대한필수고려사항요약
___RRF를활용한ELSER통합
___언어모델과RAG
9.2심층사례연구?RAG기반CookBot만들기
___데이터세트개요?Allrecipes.com데이터세트살펴보기
___RAG강화검색을위한데이터준비
___ELSER를사용한RRF검색기
___검색기활용및생성기만들기
요약

10:챗GPT용엘라스틱플러그인구축하기
10.1맥락의기초
___동적맥락의패러다임
10.2DCL플러그인?구조와작동방식
10.3DCL구현하기
___엘라스틱문서에서최신정보가져오기
___Embedchain을활용한데이터수준높이기
___챗GPT와통합해실시간대화상대만들기
___배포
요약

부록:엘라스틱가이드GPT만들기