[POD] AI 모델을 위한 자연어추론 데이터

[POD] AI 모델을 위한 자연어추론 데이터

$27.77
저자

남지순

저자:남지순
연세대학교에서학사및석사학위후프랑스파리제7대학(UniversityParis7)에서이론형식언어학박사학위를받았다.이후파리이스트대학교(UPEM)에서컴퓨터언어학아빌리타시옹(Habilitation)학위를취득하였다.귀국후KAIST인공지능연구센터(CAIR)선임연구원을거쳐현재한국외국어대학교언어인지과학과교수로재직중에있다.한국외대디지털언어지식콘텐츠연구센터(DICORA)센터장을맡고있으며,캐나다몬트리올대학교(UDEM)및맥길대학교(McGillUniversity),파리이스트대학교(UPEM)에서초빙교수를역임하였다.한국어전자사전과어휘문법연구,부분문법방법론에대한연구를진행하고있으며,감성분석,챗봇대화,자연어이해등의영역에서필요로하는언어자원및자연어데이터구축방법론에대한연구를수행하고있다.

목차

목차
머리말|저자서문ii
책의구성|목차iv
제1장.자연어추론데이터셋연구동향1
1자연어추론(NaturalLanguageInference)3
1.1자연어추론의정의3
1.2자연어추론(NLI)과초기언어학적고찰8
2자연어추론데이터셋과벤치마크29
2.1텍스트함의인식(RTE)데이터셋30
2.2대규모자연어추론벤치마크의등장32
2.3어휘?논리?통사기반데이터셋연구44
2.4상식ㆍ문맥에기반한자연어추론데이터셋연구60
2.5국내자연어추론학습데이터셋의연구79
3자연어추론데이터셋구축접근법86
3.1웹문서기반전제문과크라우드워커의가설문86
3.2언어학적특징을고려한데이터셋의설계88

제2장.언어학적속성기반한국어추론데이터연구91
I.논항변환스키마97
1A01주어와‘N-와’논항의교차100
2A02목적어와‘N-와’논항의교차104
3A03주어와‘N-에/로’논항의교차106
4A04목적어와‘N-에/로’논항의교차109
5A05목적어와주어의교차110
6A06속격의주격중출문논항으로의변형114
7A07속격의목적격중출문논항으로의변형116
8A08내포문주격의주절목적격으로의변형118
9A09주격의무표격논항으로의변형120
10A10목적격의무표격논항으로의변형122
11A11부사격의후치사변형125
12A12주격논항의삭제130
13A13주격중출문의논항삭제132
14A14목적격논항의삭제141
15A15목적격중출문의논항삭제142
16A16동족논항구문의논항삭제147
17A17부사격논항의삭제149
18A18공지칭대명사논항의삭제151
19A19명사구의AND등위접속155
20A20명사구의OR등위접속158
21A21주격논항의외치등위접속161
22A22목적격논항의외치등위접속163
23A23부사격논항의외치등위접속165

II.술어변환스키마167
24P01동사구술어의부정170
25P02형용사구술어의부정172
26P03명사구술어의부정176
27P04술어구이중부정문178
28P05술어의수동문변형184
29P06술어의시제변형188
30P07술어의우언적구성변형190
31P08술어의보문절변형194
32P09내포문술어의명사화변형196
33P10형용사술어의부사화변형199
34P11함축동사의삭제203
35P12사실동사의삭제210
36P13사역동사의삭제215
37P14술어의AND등위접속218
38P15술어의OR등위접속221

III.수식성분변환스키마227
39M01수량사/시간표현관형어의변형230
40M02상향단조의존재양화사변형235
41M03하향단조의보편양화사변형237
42M04수관형어의비단조변형239
43M05두관형어의교차변형240
44M06관형어의위치변형243
45M07관형어의삭제변형245
46M08관형어의AND등위접속248
47M09관형어의OR등위접속252
48M10주어의주격관계절변형258
49M11주어의비주격관계절변형263
50M12비주어논항의주격관계절변형266
51M13비주어논항의비주격관계절변형269
52M14조건부사절내포문장의변형272
53M15양보부사절내포문장의변형274
54M16목적부사절내포문장의변형276
55M17원인부사절내포문장의변형278
56M18시간부사절내포문장의변형280
57M19설명부사절내포문장의변형283
58M20확신/태도표현문장부사의변형287
59M21불확신표현문장부사의변형289

IV.어휘?지식변환스키마293
60L01명사의유의어어휘변형296
61L02명사외범주의유의어어휘변형298
62L03명사의반의어어휘변형301
63L04명사외범주의반의어어휘변형304
64L05비유적?관용적유의어표현변형308
65L06부정접두사에의한파생어변형310
66L07명사의상위어?하위어어휘변형313
67L08명사외범주의상하위어어휘변형316
68L09명사의부분어?전체어어휘변형319
69L10명사의환유어어휘변형322
70L11문화?종교지식에기반한변형325
71L12지리적지식에기반한변형327
72L13역사적지식에기반한변형329
73L14예술적지식에기반한변형331
74L15법률?사회적지식에기반한변형334
75L16경제?스포츠지식에기반한변형336
76L17수리적지식에기반한변형338
77L18과학?의학지식에기반한변형340
78L19일반상식지식에기반한변형342

제3장.KOLINS스키마&KOLIN데이터셋345
1KOLINS한국어추론데이터스키마347
2KOLIN한국어추론데이터셋구축353
3KOLIN데이터셋성능평가364
참고문헌371

출판사 서평

인간이다른사람의말을듣고,이해하며,이에응답하기위해서는여러가지지적능력을필요로한다.우리들의일상대화는이렇게무수히축적된언어적또는언어외적지식의토대위에서수행되는데,추론(inference)이란바로이러한복합적인지적프로세싱을가능하게하는수많은논리적퍼즐조각들로이루어진다.이책은현재놀라운성능으로인간과대화를수행하는AI언어모델(languagemodel)이아직도여전히많은부분에서인간과같은추론능력을보이지못하는현상이어디에서비롯되는것인지에대한성찰에서출발하였다.이를위한신뢰할수있는학습데이터가제공될때AI모델의추론능력이향상될수있을것이라는데에는이견이없지만,과연이를위한‘자연어추론(NaturalLanguageInference:NLI)’데이터가어떻게구성되어야할것인가의문제에대해서는아직도밝혀내야할내용이산재해있기때문이다.

이책에서는AI언어모델의자연어추론능력학습을위해제안된NLI데이터셋의연구동향을소개하고,현재지적되는한계점들을극복하기위해서자연언어의어떠한특징들이고려되어야하는지에대해서고찰하였다.특히한국어에특화된NLI데이터셋을설계하기위해서,어떠한한국어고유의언어적속성들이기술되어야하는지를심층적으로논의하였다.이책은다음세부분으로구성된다.제1장에서는현재자연어추론데이터셋구축연구동향을고찰하고,제2장에서는한국어의통사ㆍ의미적속성에기반한자연어추론데이터셋구축에중요하다고판단되는언어학적현상들을78개유형으로분류하여논의한다.끝으로제3장에서는이유형별속성을통해제안된자연어추론스키마KOLINS와이에따라구축된한국어추론데이터KOLIN(버전V_1.0)에대한소개및성능평가가진행된다.

이책은한국어에특화된다양한태스크의AI모델을개발하고자하는개발군연구자들뿐아니라자연어이해를위한언어데이터구축에관심이있는데이터언어학연구자들,그리고한국어의추론관계에관여하는어휘ㆍ통사ㆍ의미적속성들에대한언어학적연구를수행하고자하는이론언어학및한국어학연구자들을대상으로하였다.이책은대학에서의강의와연구를바탕으로시작되었으나,언어모델의파인튜닝(fine-tuning)을위한학습데이터셋구축에필요한실제스키마를제안하는역할을함께수행할수있게되었다.본연구에서분류하여제안하는한국어의언어학적속성유형별성찰을통해,향후언어모델이어떠한통사ㆍ의미적언어현상이해에특히취약한양상을보이는가를파악하고,이를위한맞춤형데이터증강이가능할것으로판단된다.이를통해현재언어모델의한계를극복하기위해왜이와같은‘언어학적접근법(symbolicapproach)’이반드시함께병행되어야하는지를다시한번체험할수있는기회가되기를기대한다.