머신러닝을 위한 실전 데이터셋 (개인 정보를 보호하고 머신러닝 학습에 사용할 합성 데이터 만들기)

머신러닝을 위한 실전 데이터셋 (개인 정보를 보호하고 머신러닝 학습에 사용할 합성 데이터 만들기)

$18.00
Description
개인 정보 보호와 광범위한 데이터 사용의 균형을 이루다.
머신러닝 모델을 구축하고, 테스트를 진행하려면 크고 다양한 종류의 데이터가 필요하다. 그러나 대부분의 데이터셋은 개인 정보 문제로 사용이 제한적이라 광범위하게 사용할 수 없다. 이 책에서는 실제 데이터로 새로운 데이터를 만드는 실용적인 합성 데이터 기술을 소개한다. 합성 데이터는 이차 분석에 용이하여 데이터 연구, 고객 행동의 이해, 신제품 개발 등 다양한 목적으로 활용될 수 있다.

이 책은 실제 데이터를 합성해 다양한 산업에서 사용할 수 있는 방법을 제공하며, 개인 정보 문제를 해결하는 방법을 다룬다. 또한 실제 데이터셋에서 합성 데이터를 생성하기 위한 원칙과 단계를 배운다. 더 나아가 합성 데이터가 제품이나 솔루션 개발에 드는 시간을 어떻게 단축할 수 있는지를 학습한다.

● 다변량 정규 분포를 사용해 합성 데이터 생성하기
● 다양한 적합도 메트릭을 분포 적합하기
● 원본 데이터의 구조를 복제하기
● 관계가 복잡한 데이터를 모델링하기
● 데이터 효용성을 평가하는 방식과 측정 기준 정하기
● 실제 데이터를 분석해 합성 데이터를 복제하기
● 합성 데이터의 개인 정보와 신원 노출을 평가하기
저자

칼리드엘에맘

KhaledElEmam
EasternOntarioResearchInstitute의아동병원선임과학자이자종합적인전자건강정보연구소소장으로합성데이터생성방법과도구에대한응용학술연구를수행하고재식별위험성을측정한다.또오타와대학교의과대학교수로재직중이다.
칼리드는의료산업에서인공지능과머신러닝(ArtificialIntelligenceandMachineLearning,AIML)의응용을추진하기위해합성데이터개발에주력하는ReplicaAnalytics의공동설립자다.동시에데이터보호기술을개발하고의료서비스를제공하며신약발명을지원하는분석도구를구축하는기술회사의이사회에서투자,자문,이사를겸임하고있다.

목차

CHAPTER1합성데이터생성소개
1.1합성데이터정의
1.2합성데이터의이점
1.3합성데이터의활용사례
1.4요약

CHAPTER2데이터합성
2.1합성시기
2.2식별화가능성스펙트럼
2.3데이터접근활성화를위한PET선택의절충
2.4데이터합성프로젝트
2.5데이터합성파이프라인
2.6합성프로그램관리
2.7요약

CHAPTER3시작:분포적합
3.1데이터프레임
3.2데이터분포유형
3.3실제데이터에분포적합시키기
3.4분포로부터합성데이터생성
3.5요약

CHAPTER4합성데이터의효용성평가
4.1합성데이터효용성프레임워크:분석복제
4.2합성데이터의효용성프레임워크:효용성메트릭
4.3요약

CHAPTER5데이터합성방법
5.1합성데이터생성이론
5.2실제합성데이터생성
5.3하이브리드합성데이터
5.4머신러닝방법
5.5딥러닝방법
5.6시퀀스합성
5.7요약

CHAPTER6합성데이터의신원식별
6.1노출유형
6.2개인정보보호법이합성데이터의생성과사용에미치는영향
6.3요약

CHAPTER7실제데이터합성
7.1데이터복잡성관리
7.2데이터합성구성
7.3결론

출판사 서평

합성데이터는지난몇년간주목을받으며사회적관심이급속도로증가했는데,이러한현상은다음과같은두가지에관심이쏠리면서촉발됐다.첫째는인공지능과머신러닝(AIML)모델을양성하고구축하는데따른대량의데이터수요다.둘째는고품질의합성데이터를생성하는효과적인방법을입증한최근의작업이다.이로인해합성데이터가특히AIML커뮤니티내에서어려운문제를일부상당히효과적으로해결할수있음을인식하게됐다.따라서NVIDIA,IBM,알파벳과같은회사들만이아니라미국인구조사국같은정부기관도모델구축,애플리케이션개발,데이터배포를지원하기위해다양한유형의데이터합성방법론을채택하기에이르렀다.

1장:합성데이터와그이점이무엇인지설명한다.인공지능과머신러닝(AIML)프로젝트는다양한산업에서사용되고있으며,광범위한활용사례중맛보기로몇가지를발췌해수록했다.

2장:데이터합성의목표를설정하고다른방법들에비해비즈니스우선순위에적합한시기를결정하는데도움되는의사결정프레임워크를제시한다.

3장:데이터합성프로세스의첫번째단계인분포모델링을다룬다.비정형데이터분포를머신러닝모델에적합하는방법을개략적으로설명한다.

4장:합성데이터에사용할수있는데이터효용성프레임워크를설명한다.데이터합성기최적화,데이터합성접근법,합성데이터의결과파악등을살펴본다.

5장:기본개념을이용해합성데이터를생성해본다.몇가지기본적인접근법으로시작해서뒤로갈수록복잡한접근법으로발전하며입문자용기술부터고급기술까지다룬다.

6장:먼저데이터합성이보호하려는노출유형을정의한다.미국과유럽연합의주요프라이버시규정이합성데이터를어떻게다루는지검토하고,프라이버시보장분석을시작할방법을제시한다.

7장:합성데이터셋과합성데이터생성기술을전수해온경험을바탕으로실제데이터를처리할때도움될실용적인고려사항을제시한다.도전적인과업을강조할뿐만아니라과업을해결할방안도제시한다.