인간이다른사람의말을듣고,이해하며,이에응답하기위해서는여러가지지적능력을필요로한다.우리들의일상대화는이렇게무수히축적된언어적또는언어외적지식의토대위에서수행되는데,추론(inference)이란바로이러한복합적인지적프로세싱을가능하게하는수많은논리적퍼즐조각들로이루어진다.이책은현재놀라운성능으로인간과대화를수행하는AI언어모델(languagemodel)이아직도여전히많은부분에서인간과같은추론능력을보이지못하는현상이어디에서비롯되는것인지에대한성찰에서출발하였다.이를위한신뢰할수있는학습데이터가제공될때AI모델의추론능력이향상될수있을것이라는데에는이견이없지만,과연이를위한‘자연어추론(NaturalLanguageInference:NLI)’데이터가어떻게구성되어야할것인가의문제에대해서는아직도밝혀내야할내용이산재해있기때문이다.
이책에서는AI언어모델의자연어추론능력학습을위해제안된NLI데이터셋의연구동향을소개하고,현재지적되는한계점들을극복하기위해서자연언어의어떠한특징들이고려되어야하는지에대해서고찰하였다.특히한국어에특화된NLI데이터셋을설계하기위해서,어떠한한국어고유의언어적속성들이기술되어야하는지를심층적으로논의하였다.이책은다음세부분으로구성된다.제1장에서는현재자연어추론데이터셋구축연구동향을고찰하고,제2장에서는한국어의통사ㆍ의미적속성에기반한자연어추론데이터셋구축에중요하다고판단되는언어학적현상들을78개유형으로분류하여논의한다.끝으로제3장에서는이유형별속성을통해제안된자연어추론스키마KOLINS와이에따라구축된한국어추론데이터KOLIN(버전V_1.0)에대한소개및성능평가가진행된다.
이책은한국어에특화된다양한태스크의AI모델을개발하고자하는개발군연구자들뿐아니라자연어이해를위한언어데이터구축에관심이있는데이터언어학연구자들,그리고한국어의추론관계에관여하는어휘ㆍ통사ㆍ의미적속성들에대한언어학적연구를수행하고자하는이론언어학및한국어학연구자들을대상으로하였다.이책은대학에서의강의와연구를바탕으로시작되었으나,언어모델의파인튜닝(fine-tuning)을위한학습데이터셋구축에필요한실제스키마를제안하는역할을함께수행할수있게되었다.본연구에서분류하여제안하는한국어의언어학적속성유형별성찰을통해,향후언어모델이어떠한통사ㆍ의미적언어현상이해에특히취약한양상을보이는가를파악하고,이를위한맞춤형데이터증강이가능할것으로판단된다.이를통해현재언어모델의한계를극복하기위해왜이와같은‘언어학적접근법(symbolicapproach)’이반드시함께병행되어야하는지를다시한번체험할수있는기회가되기를기대한다.