N-gram을 이용한 한국어 연속 표현 연구

N-gram을 이용한 한국어 연속 표현 연구

$22.25
Description
컴퓨터가 인간의 언어를 이해하는 방법과 과정은 인공지능 분야의 중요한 연구 과제였다. 자연언어정보 처리방법은 인공지능분야의 중요한 기술이며, 이것으로 인간과 컴퓨터의 상호작용을 실현할 수 있다. 언어모델은 인간과 컴퓨터의 상호작용모델의 일종이며 언어모델은 기계번역, 음성인식, 검색엔진의 자동 완성 등에 적용할 수 있다. 언어 모델은 주로 규칙 언어 모델과 통계 언어 모델로 나뉜다. 통계 언어 모델은 확률 통계의 방법으로 언어 단위의 내재적인 통계 법칙을 밝히는 데 사용된다.
통계 언어 모델에서 n-gram은 간단하고 효과적이며 널리 사용되고 있다. 이 책은 한국어 문어와 구어 말뭉치를 조사하여 전산언어학의 n-gram 방법으로 연속 표현을 추출하고 통계언어학적 방법으로 연속 표현의 기본 분포 양상과 사용 특징을 고찰하였다. 이 책에서는 연속 표현을 하나의 단어로 보고 빈도와 분포율을 각각 집계하여 연속 표현의 사용도를 계산하였다. 연속 표현의 사용도를 바탕으로 사용도 순위를 나누고, 사용도 순위에 따라 한국어 범용 연속 표현 목록을 제시하였다. 이상의 연구 방법은 연속 표현의 빈도수와 출현 텍스트 수를 모두 고찰할 수 있다. 따라서 저사용도 연속 표현의 대량 중복, 순위가 성기거나 같은 사용도 연속 표현 간의 순위 거리가 먼 문제를 극복할 수 있을 뿐만 아니라 상용 연속 표현 추출에도 효과적이라고 할 수 있다.
이 책에서는 실험을 통해 한국어 연속 표현이 지프의 법칙을 따른다는 것을 입증했다. 그리고 지프의 분포로 빈도, 분포율, 사용도에서 연속 표현 분포의 전반적인 패턴을 고찰하였다. 지프분포를 기준으로 상용 연속 표현의 중요성을 인식할 수 있으며, 상용 연속 표현의 반복 축적의 역할을 강조할 수 있다.
이 책에서는 또한 연속 표현의 구성요소 태깅으로부터 한국어 연속 표현의 구성요소 간의 결합관계를 고찰하였다. 이러한 고찰을 통해 상위 메타언어 특징을 살펴보고 한국어의 형식과 의미 조합을 체계적으로 파악하였다. 또한 단순선형회귀분석 방법을 이용하여 연속 표현 구성요소에서 두 구성요소 간의 상관 계수를 계산하여 두 구성요소 간의 상관 관계를 분석하였다. 이로써 학계에서 오랫동안 구성요소 간의 관계에 대한 공통적인 인식을 통계적인 수치로 실증하였고, 연속 표현의 적용범위를 확대하였다.

저자

김정

저자:김정
중국연변대학교(延邊大學校)한어학과(학사)졸업
중국연변대학교(延邊大學校)한어문자학과(석사)졸업
중국연변대학교(延邊大學校)아시아-아프리카언어문학(박사)졸업
현연변대학교문학원강사

목차


머리말

제1장서론
1.1연구목적및의의
1.2연구대상및범위
1.3선행연구
1.4연구의구성
제2장한국어연속표현연구의방법론
2.1n-gram연구
2.2말뭉치기반연구와말뭉치주도연구
2.3연속표현의추출방법
2.3.1연속표현의추출단위
2.3.2연속표현의추출범위
2.4연속표현의통계기법과추출도구
2.4.1연속표현의빈도
2.4.2연속표현의분포율
2.4.3연속표현의사용도
2.4.4지프의법칙
2.4.5연속표현의추출프로그램
제3장한국어연속표현추출과정
3.1추출과정
3.1.1원시말뭉치
3.1.2형태소분석
3.1.3말뭉치전처리
3.2추출된n-gram결과물
제4장한국어연속표현의분포적양상
4.1연속표현의분포적양상
4.1.1연속표현의토큰비교
4.1.2연속표현의타입비교
4.1.3연속표현TTR비교
4.2연속표현의빈도분석
4.2.1연속표현빈도통계적분석
4.2.2문어연속표현빈도
4.2.3구어연속표현빈도
4.2.4연속표현의종합빈도
4.3연속표현의분포율분석
4.3.1연속표현분포율통계적분석
4.3.2문어연속표현분포율
4.3.3구어연속표현분포율
4.3.4연속표현의종합분포율
4.4연속표현의사용도분석
4.4.1연속표현사용도통계적분석
4.4.2문어연속표현사용도
4.4.3구어연속표현사용도
4.4.4연속표현의종합사용도
4.5소결
제5장한국어연속표현의특성
5.1연속표현의사용도순위
5.22-gram~9-gram연속표현의특성
5.2.12-gram연속표현
5.2.23-gram연속표현
5.2.34-gram연속표현
5.2.45-gram연속표현
5.2.56-gram연속표현
5.2.67-gram연속표현
5.2.78-gram연속표현
5.2.89-gram연속표현
5.3소결
제6장한국어연속표현구성요소태깅의분포와상관관계
6.1연속표현구성요소태깅의분포적양상
6.1.1연속표현구성요소태깅의통계적분석
6.1.2문어연속표현구성요소태깅
6.1.3구어연속표현구성요소태깅
6.2연속표현구성요소태깅의상관관계
6.2.1단순선형회귀분석과정
6.2.2연구결과
6.3소결
제7장결론

참고문헌

부록1:연속표현종합빈도상위300위목록
부록2:연속표현종합분포율상위300위목록
부록3:연속표현종합사용도상위300위목록
부록4:연속표현2-gram~9-gram사용도순위목록

출판사 서평


컴퓨터가인간의언어를이해하는방법과과정은인공지능분야의중요한연구과제였다.자연언어정보처리방법은인공지능분야의중요한기술이며,이것으로인간과컴퓨터의상호작용을실현할수있다.언어모델은인간과컴퓨터의상호작용모델의일종이며언어모델은기계번역,음성인식,검색엔진의자동완성등에적용할수있다.언어모델은주로규칙언어모델과통계언어모델로나뉜다.통계언어모델은확률통계의방법으로언어단위의내재적인통계법칙을밝히는데사용된다.
통계언어모델에서n-gram은간단하고효과적이며널리사용되고있다.이책은한국어문어와구어말뭉치를조사하여전산언어학의n-gram방법으로연속표현을추출하고통계언어학적방법으로연속표현의기본분포양상과사용특징을고찰하였다.이책에서는연속표현을하나의단어로보고빈도와분포율을각각집계하여연속표현의사용도를계산하였다.연속표현의사용도를바탕으로사용도순위를나누고,사용도순위에따라한국어범용연속표현목록을제시하였다.이상의연구방법은연속표현의빈도수와출현텍스트수를모두고찰할수있다.따라서저사용도연속표현의대량중복,순위가성기거나같은사용도연속표현간의순위거리가먼문제를극복할수있을뿐만아니라상용연속표현추출에도효과적이라고할수있다.
이책에서는실험을통해한국어연속표현이지프의법칙을따른다는것을입증했다.그리고지프의분포로빈도,분포율,사용도에서연속표현분포의전반적인패턴을고찰하였다.지프분포를기준으로상용연속표현의중요성을인식할수있으며,상용연속표현의반복축적의역할을강조할수있다.
이책에서는또한연속표현의구성요소태깅으로부터한국어연속표현의구성요소간의결합관계를고찰하였다.이러한고찰을통해상위메타언어특징을살펴보고한국어의형식과의미조합을체계적으로파악하였다.또한단순선형회귀분석방법을이용하여연속표현구성요소에서두구성요소간의상관계수를계산하여두구성요소간의상관관계를분석하였다.이로써학계에서오랫동안구성요소간의관계에대한공통적인인식을통계적인수치로실증하였고,연속표현의적용범위를확대하였다.