허깅페이스로 배우는 멀티모달 모델 (이미지 이해부터 생성, 파인튜닝까지)

허깅페이스로 배우는 멀티모달 모델 (이미지 이해부터 생성, 파인튜닝까지)

$22.00
Description
세계 최대이자 대표 오픈소스 AI 플랫폼
허깅페이스로 시작하는 멀티모달 모델의 모든 것
허깅페이스(Hugging Face)는 전 세계의 수많은 연구자와 기업들이 자신의 모델과 데이터셋을 공개하고 공유할 수 있는 대표적인 오픈소스 AI 플랫폼입니다. 허깅페이스는 단순히 모델을 모아 둔 저장소 역할만 하지 않습니다. Transformers와 같은 라이브러리를 통해 이 모델들을 쉽게 다룰 수 있는 방법을 제공하며, 개발자들이 복잡한 기술을 간단한 코드 몇 줄로 활용할 수 있게 해줍니다. 이렇듯 허깅페이스는 AI 기술을 효과적으로 활용하는 것은 물론 텍스트, 이미지, 오디오, 비디오 등 다양한 데이터를 동시에 처리하는 멀티모달(Multimodal) AI 분야에서도 필수적인 도구로 자리 잡았습니다.
《허깅페이스로 배우는 멀티모달 모델》은 허깅페이스(Hugging Face) 생태계를 기반으로, 텍스트와 이미지를 동시에 다루는 멀티모달 (Multimodal) 모델의 기초부터 실무 활용까지 이론을 바탕으로 실습을 통해 익힐 수 있도록 구성하였습니다.
이론 설명을 넘어 멀티모달 모델의 핵심인 CLIP 인코더의 원리와 비전 언어 모델(VLM)의 파인튜닝 그리고 ControlNet을 활용한 정교한 이미지 생성 기법을 단계별 실습과 함께 알려 줍니다. 특히 급변하는 AI 트렌드에 발맞춰 비디오 LLM, 옴니 모델, 로봇 멀티모달 등 차세대 기술의 확장성까지 조망함으로써 AI 엔지니어와 개발자들이 실질적인 구현 능력을 갖출 수 있도록 도와줄 것입니다.
저자

이정인

컴퓨터과학과대학원에서이미지생성모델을연구한뒤,통신회사의멀티모달모델팀에소속되어이미지생성관련연구에참여했습니다.이과정에서등록한논문이HuggingFaceDailyPapers에소개되었으며,HuggingFaceKREW로활동하며오픈소스생태계에도꾸준히기여해왔습니다.오픈소스컨트리뷰션아카데미수상,AI관련대회에서1년간5회수상등연구와개발을오가며경험을쌓았습니다.현재는대규모서비스환경에서멀티모달모델을다루는AI엔지니어로일하고있습니다.복잡한개념을누구나이해할수있는이야기로풀어내기를좋아하며,처음접하는사람도끝까지따라올수있는글을지향합니다.

목차

머리말
추천사

Part01.허깅페이스살펴보기
Chapter00.들어가기에앞서
Chapter01.왜허깅페이스인가?
Chapter02.허깅페이스가입하기
Chapter03.멀티모달모델을위한허깅페이스라이브러리

PART02.멀티모달모델이해하기
Chapter00.들어가기에앞서
Chapter01.멀티모달모델에대해서알아보기
Chapter02.이미지와텍스트를이해하는CLIP

PART03.멀티모달모델을활용한이미지이해
Chapter00.들어가기에앞서
Chapter01.비전언어모델알아보기
Chapter02.주요비전언어모델실전활용
Chapter03.특정작업을잘하도록비전언어모델파인튜닝하기

PART04.멀티모달모델을활용한이미지생성
Chapter00.들어가기에앞서
Chapter01.이미지생성모델이해하기
Chapter02.이미지생성모델을더효과적으로제어하는방법
Chapter03.나만의멀티모달이미지생성모델을학습하는방법
Chapter04.더효율적으로이미지생성모델을사용하는방법

PART05.멀티모달모델더알아보기
Chapter00.들어가기에앞서
Chapter01.멀티모달이해더알아보기
Chapter02.멀티모달생성더알아보기

출판사 서평

AI기술의격전지,멀티모달의AtoZ
"복합지능AI시대를주도하기위한가장확실한로드맵“

단일데이터처리의시대가저물고,인간처럼보고듣고말하는‘멀티모달’이인공지능의새로운표준이되었습니다.이책은파편화된기술정보를나열하는대신,전세계개발자들이가장신뢰하는허깅페이스생태계를기반으로멀티모달모델의탄생배경부터최신진화양상까지하나의흐름으로꿰어냅니다.

〈이책에수록된내용〉
ㆍPart01.허깅페이스살펴보기에서는전세계적으로가장대표적인오픈소스AI플랫폼인허깅페이스의시작과발전과정,그리고허깅페이스의생태계를‘개발도구및서비스’,‘연구개발’,‘커뮤니티및교육’,이렇게세영역으로나누어살펴봅니다.또한허깅페이스멀티모달모델을위한허깅페이스의라이브러리의모델불러오기,입력처리,파이프라인시스템에대해서살펴봅니다.
ㆍPART02.멀티모달모델이해하기에서는멀티모달모델을활용한이미지생성에앞서먼저멀티모달모델이란무엇인지와필요성,그리고모델의분류에대해알아봅니다.또한멀티모달모델이작동하는데꼭필요한,이미지와텍스트데이터를동시에처리할수있는인코더중가장널리사용되는CLIP의개념과CLIP가실제로어떻게작동하는지,제로샷분류실습을통해확인해봅니다.
ㆍPART03.멀티모달모델을활용한이미지이해에서는멀티모달모델을활용해이미지와같은시각정보를이해하고,그이해를바탕으로시각정보와연관된텍스트를생성하는방법들을단계적으로학습할수있도록안내합니다.멀티모달모델이어떻게이미지와텍스트를함께이해하는지에대한핵심개념과이를바탕으로비전언어모델들을실제로사용해보며,주요작업에서의동작방식과출력특성을비교합니다.비전언어모델이특정작업에서더정확하고일관된출력을내도록만드는파인튜닝방법을다룹니다.
ㆍPART04.멀티모달모델을활용한이미지생성에서는멀티모달모델을활용한이미지생성방법을다룹니다.먼저,텍스트기반이미지생성모델의기본적인개념과활용방법을이해하고,ControlNet을활용하여보다정교하게이미지생성을제어하는방법을살펴봅니다.또한,맞춤형이미지생성모델을학습하는방법과효율적인학습및추론기법도수록했습니다.
ㆍPART05.멀티모달모델더알아보기에서는기존의이미지기반멀티모달모델을시간차원으로확장한모델인비디오LLM,텍스트,이미지,오디오(음성),비디오등여러종류의데이터를동시에자연스럽게처리하는옴니모델,로봇을위한멀티모달모델을살펴봅니다.또한하나의모델로이미지생성과편집을아우르는QwenImageEdit와비디오생성모델의등장과이에따른도전과제들을살펴보며,마지막으로이미지생성벤치마크를알아봅니다.

〈이책을함께읽어요!〉
ㆍ자연어처리(NLP),컴퓨터비전,멀티모달분야에관심있는일반인
ㆍ멀티모달모델학습을통해이미지생성원리및모델확습에관심있는일반인
ㆍ오픈소스라이브러리를통한AI실습에관심있는개발자
ㆍAI기술을실무에적용하고자하는개발자
ㆍ허깅페이스및오픈소스라이브러리를통한LLM개발에관심있는AI엔지니어