물결 21 코퍼스의 구축과 활용 (양장본 Hardcover)

물결 21 코퍼스의 구축과 활용 (양장본 Hardcover)

$20.00
Description
이 책의 주요 대상인 ‘물결 21’ 코퍼스는 ‘물결 21’ 사업의 일부분으로서, 이 코퍼스를 이해하기 위해서는 ‘물결 21’ 사업에 대한 설명이 있어야 할 것이다. ‘물결 21’ 사업은 대규모의 신문 코퍼스를 기반으로 한 장기간의 언어?사회?문화적 추이를 연구하려는 대형 프로젝트로서 조선일보, 동아일보, 중앙일보, 한겨레신문 등의 주요 신문사가 모두 참여하고 있을 뿐 아니라 고려대학교 민족문화연구원을 주관 기간으로 하고, 그 밖에 고려대학교의 정보문화연구소, 통계연구소 등이 협력 기관으로 참여하였다.
저자

김일환

저자김일환(金日煥,IlhwanKim)은고려대학교민족문화연구원HK연구교수.

목차

책머리에

도입
1.개요
2.‘물결21’사업
3.감사의글

1장코퍼스의설계
1.목적
2.구성
3.특성

2장코퍼스의기본구조
1.마크업규약-NewsML과T21ML
2.T21ML의기본구조와DTD
3.T21ML의주요요소
4.《T21Class》의개발

3장기초코퍼스의구축
1.기사수집과검토
2.신문기사정제
3.표준화
4.신문기사주제분류-《T21Class》
5.T21ML변환

4장품사태깅
1.품사표지(tagset)
2.분석지침
3.태거학습용코퍼스의구축
4.자동태깅
5.후처리와분석성공률

5장활용도구
1.용례검색도구
2.공기어검색도구
3.빈도차트

참고문헌
부록:태거학습용코퍼스(SJ-RIKS코퍼스)의장르별텍스트구성목록

출판사 서평

『‘물결21’코퍼스의구축과활용』은…

『‘물결21’코퍼스의구축과활용』은고려대학교민족문화연구원전자인문학팀에서수행해온‘물결21’사업의성과중하나로서약5년여에걸친사업의주요세부과정을담고있는첫단행본이다.이책에는신문사로부터대규모의신문기사를인수받아이를코퍼스라는언어자원으로구축하기까지의작업과정이구체적으로포함되어있을뿐아니라구축된언어자원을표준화하고형태정보를주석하는등의내용까지모두반영되어있다.책의후반부에는구축된코퍼스로부터용례검색,공기어검색등을수행할수있는도구를소개하는내용도들어있다.

이책의주요대상인‘물결21’코퍼스는‘물결21’사업의일부분으로서,이코퍼스를이해하기위해서는‘물결21’사업에대한설명이있어야할것이다.‘물결21’사업은대규모의신문코퍼스를기반으로한장기간의언어?사회?문화적추이를연구하려는대형프로젝트로서조선일보,동아일보,중앙일보,한겨레신문등의주요신문사가모두참여하고있을뿐아니라고려대학교민족문화연구원을주관기간으로하고,그밖에고려대학교의정보문화연구소,통계연구소등이협력기관으로참여하였다.

‘물결21’코퍼스는신문으로만구성되어있다는점에서매우독특한성격을가진다.‘물결21’사업에서‘신문’이라는텍스트에주목한것은문서환경의급격한변화와무관하지않다.

즉정보화사회로의급격한변화는신문시장에도큰변화를가져왔다.특히인터넷을통한엄청난정보의홍수는신문이가지는위상에변화를초래하기도하였다.1인미디어로알려진블로그의발전과SNS를통해쏟아지는메시지의규모는인류가지금까지접해왔던모든정보의합을넘어선다고까지알려져있다.그결과로신문의발행부수는크게감소하였고정보전달매체로서의역할에도한계가있는것으로지적하기도하였다.그러나정보생성주체로서신문이가지는영향력은여전히독보적이다.발행부수의감소가곧신문의영향력이축소되었음을의미하지는않는다.오히려거의모든신문사가온라인판을추가로발행하면서기존의독자층을유지하려힘썼을뿐아니라온라인매체의특성상종이신문이가지는지역적한계를초월할수있다는장점이있기때문이다.더구나신문은SNS등의자료와달리정기적으로생산된다는점,특정한집단에의해걸러진공적인규범을준수하는자료라는점,오랜역사와전통을가진다는점등에서더욱중요한자료라할수있다.

‘물결21’사업은이러한신문의가치에주목하였다.
신문이발행하는기사는1년에약900~1000만어절에이르고4개신문사의기사를모두합하면1년에약4000만어절에육박하는대규모의언어자원이된다.현재물결21코퍼스는2000년부터12년치기사를모두포함하므로전체적인규모는5억어절을상회한다.(5억어절은장편소설한권이약5만어절내외라는점을감안하면-장편소설1만권분량에해당한다).

대규모의언어자원을구축하고이를활용하기위한배경에는정보처리기술의비약적인발전과밀접히관련된다.1998년21세기세종계획에서1년동안구축한현대국어형태분석코퍼스의규모가150만어절에불과하였다는점을감안하면5억어절규모의텍스트를단기간에분석,처리하는일이어느정도수준의작업인가는쉽게상상할수있다.고려대학교민족문화연구원전자인문학팀에서는1990년대중반부터코퍼스를구축하는프로젝트를수행한바있으며21세기세종계획에서도코퍼스구축에주도적인역할을한바있다.이러한정보처리에대한경험과기술이없었다면‘물결21’은기획하기조차어려웠을것이다.

‘물결21’코퍼스는규모면에서국내외에서가장크다고할수있다.특히신문이라는단일한종류의텍스트만으로5억어절이상의코퍼스를구축한사례는세계적으로도유례를찾아보기어렵다.이책은이러한대규모의‘물결21’코퍼스를구축하는과정에서맞닥뜨린다양한문제들과그해결과정등이모두포함되어있다는점에서학계에기여하는바가클것으로기대된다.특히처리방식이다양한대규모의자료를표준화하는과정들,구축된신문기사에형태정보를부착하고이를수정,업데이트하는작업들은코퍼스를구축하려는기관이나연구자에게는늘접할수밖에없는일이다.이책을통해그러한시행착오를조금이라도줄일수있을것이다.

‘물결21’사업은현재에도진행형이다.현재2012년기사를분석,처리하고있으며향후에도지속적으로자원을확충해나갈계획이다.그런면에서볼때이책은‘물결21’사업의중간보고서의지위이상을가지기는힘들것이다.그러나대규모텍스트자료의분석과처리에대한기본적인방침에는변화가없다는점에서이책은여전히가치가있다.