Description
컴퓨터가 인간의 언어를 이해하는 방법과 과정은 인공지능 분야의 중요한 연구 과제였다. 자연언어정보 처리방법은 인공지능분야의 중요한 기술이며, 이것으로 인간과 컴퓨터의 상호작용을 실현할 수 있다. 언어모델은 인간과 컴퓨터의 상호작용모델의 일종이며 언어모델은 기계번역, 음성인식, 검색엔진의 자동 완성 등에 적용할 수 있다. 언어 모델은 주로 규칙 언어 모델과 통계 언어 모델로 나뉜다. 통계 언어 모델은 확률 통계의 방법으로 언어 단위의 내재적인 통계 법칙을 밝히는 데 사용된다.
통계 언어 모델에서 n-gram은 간단하고 효과적이며 널리 사용되고 있다. 이 책은 한국어 문어와 구어 말뭉치를 조사하여 전산언어학의 n-gram 방법으로 연속 표현을 추출하고 통계언어학적 방법으로 연속 표현의 기본 분포 양상과 사용 특징을 고찰하였다. 이 책에서는 연속 표현을 하나의 단어로 보고 빈도와 분포율을 각각 집계하여 연속 표현의 사용도를 계산하였다. 연속 표현의 사용도를 바탕으로 사용도 순위를 나누고, 사용도 순위에 따라 한국어 범용 연속 표현 목록을 제시하였다. 이상의 연구 방법은 연속 표현의 빈도수와 출현 텍스트 수를 모두 고찰할 수 있다. 따라서 저사용도 연속 표현의 대량 중복, 순위가 성기거나 같은 사용도 연속 표현 간의 순위 거리가 먼 문제를 극복할 수 있을 뿐만 아니라 상용 연속 표현 추출에도 효과적이라고 할 수 있다.
이 책에서는 실험을 통해 한국어 연속 표현이 지프의 법칙을 따른다는 것을 입증했다. 그리고 지프의 분포로 빈도, 분포율, 사용도에서 연속 표현 분포의 전반적인 패턴을 고찰하였다. 지프분포를 기준으로 상용 연속 표현의 중요성을 인식할 수 있으며, 상용 연속 표현의 반복 축적의 역할을 강조할 수 있다.
이 책에서는 또한 연속 표현의 구성요소 태깅으로부터 한국어 연속 표현의 구성요소 간의 결합관계를 고찰하였다. 이러한 고찰을 통해 상위 메타언어 특징을 살펴보고 한국어의 형식과 의미 조합을 체계적으로 파악하였다. 또한 단순선형회귀분석 방법을 이용하여 연속 표현 구성요소에서 두 구성요소 간의 상관 계수를 계산하여 두 구성요소 간의 상관 관계를 분석하였다. 이로써 학계에서 오랫동안 구성요소 간의 관계에 대한 공통적인 인식을 통계적인 수치로 실증하였고, 연속 표현의 적용범위를 확대하였다.
통계 언어 모델에서 n-gram은 간단하고 효과적이며 널리 사용되고 있다. 이 책은 한국어 문어와 구어 말뭉치를 조사하여 전산언어학의 n-gram 방법으로 연속 표현을 추출하고 통계언어학적 방법으로 연속 표현의 기본 분포 양상과 사용 특징을 고찰하였다. 이 책에서는 연속 표현을 하나의 단어로 보고 빈도와 분포율을 각각 집계하여 연속 표현의 사용도를 계산하였다. 연속 표현의 사용도를 바탕으로 사용도 순위를 나누고, 사용도 순위에 따라 한국어 범용 연속 표현 목록을 제시하였다. 이상의 연구 방법은 연속 표현의 빈도수와 출현 텍스트 수를 모두 고찰할 수 있다. 따라서 저사용도 연속 표현의 대량 중복, 순위가 성기거나 같은 사용도 연속 표현 간의 순위 거리가 먼 문제를 극복할 수 있을 뿐만 아니라 상용 연속 표현 추출에도 효과적이라고 할 수 있다.
이 책에서는 실험을 통해 한국어 연속 표현이 지프의 법칙을 따른다는 것을 입증했다. 그리고 지프의 분포로 빈도, 분포율, 사용도에서 연속 표현 분포의 전반적인 패턴을 고찰하였다. 지프분포를 기준으로 상용 연속 표현의 중요성을 인식할 수 있으며, 상용 연속 표현의 반복 축적의 역할을 강조할 수 있다.
이 책에서는 또한 연속 표현의 구성요소 태깅으로부터 한국어 연속 표현의 구성요소 간의 결합관계를 고찰하였다. 이러한 고찰을 통해 상위 메타언어 특징을 살펴보고 한국어의 형식과 의미 조합을 체계적으로 파악하였다. 또한 단순선형회귀분석 방법을 이용하여 연속 표현 구성요소에서 두 구성요소 간의 상관 계수를 계산하여 두 구성요소 간의 상관 관계를 분석하였다. 이로써 학계에서 오랫동안 구성요소 간의 관계에 대한 공통적인 인식을 통계적인 수치로 실증하였고, 연속 표현의 적용범위를 확대하였다.
N-gram을 이용한 한국어 연속 표현 연구
$22.25