指代消解中代词待消解项识别研究

以基于机器学习的指代(Anaphora)消解平台为基础,研究代词待消解项识别问题。挖掘能区分代词是否为待消解项的特征集,总结归纳具有规律的代词待消解项的句法结构,使用机器学习的方法将二者结合生成代词待消解项过滤器并将其加入到代词指代消解平台。在ACE2003基准语料上测试过滤器自身性能及对代词指代消解的贡献。实验表明过滤器具有较高的准确率,能明显地提高代词指代消解系统

第2 8卷第 3期 21 0 1年 3月

计算机应用与软件 Co mpu e p iai n n o t r tr Ap lc to s a d S f wa e

Vo. 8 No 3 12 . M a . 01 r2 1

指代消解中代词待消解项识别研究 陈九昌孔芳朱巧明周国栋 (苏州大学计算机科学与技术学院江苏苏卅 25 0 ) 10 6江苏苏州 25 0 ) 10 6 (苏省计算机信息处理技术重点实验室江

摘要

以基于机器学习的指代 ( np oa消解平台为基础,究代词待消解项识别问题。挖掘能区分代词是否为待消解项的 A ahr)研

特征集,结归纳具有规律的代词待消解项的句法结构,用机器学习的方法将二者结合生成代词待消解项过滤器并将其加入到代总使词指代消解平台。在 A E 0 3基准语料上测试过滤器自身性能及对代词指代消解的贡献。实验表明过滤器具有较高的准确率, C 20能明显地提高代词指代消解系统的性能。 关键词指代消解待消解项识别机器学习

oN DENTI CATI I FI oN oF PRoNoUNS To BE RESoLVED N I CoREFERENCE RESoLUTI oN

C e ic a g K n a g Z uQa m n Z o u dn h nJ h n o gF n h i ig huC o o g u o ,

( colfC m ue c ne n eh o g, oco nv s, uh u25 0 Jagu hn ) Sho o p t Si c d Tcnl y Sohw U ir o r e a o e Szo 10 6,ins,C i a

( e a o p t fr tnPoe i ehooyo in s rv c, uh u2 5 0 Jagu hn ) K yL bo m u rI omai rc s g Tcn l a guPoi e S zo 1 06, ins,C i fC e n o sn g fJ n a

Ab ta t sr c

T i p p r s d e h d ni c t n o rn u s t e r s le n te b sso c i e la n n a e o ee e c e o u in h s a e t is t e i e t i ai fp o o n o b e o v d o h a i f ma h n e

r ig b s d c r fr n e r s l t u f o a o

p t r .A f t f rn u s o er o e e ea dw t m c i a i e o yc m iig h s o t m n e f etrs hc l f m l r o o n sl di gn rt i a hn l r n m t d bn eet: o ie t o aue i ao i e op tb e v s e h e en g h b o n t w ss f w h a e a l o d s r n t eh r te p o o n r ei ms t e r s l e rn t n u l b e t ici ae wh t e r n u sa e t t o b e o v d o o,a d t s mmaie a d e u e s n a t t c u e o r n u s mi h h e o r n d c y t ci sr t r fp o o n s c u t e r s le i u e,a d t e l d n o t ep o o n o ee e e e ou i n p afr o b e o v d w t r ls n h y ae a d o t h r n u sc r fr n e r s l t l t m.T e p ro a c ft e f tra d te c n r u h o o h e f r n e o l n h o ti . m h ie b to o p o o s c e ee e r s l to r e t d wih ACE20 e h r opus Ex rme ts wst tt efle c iv sh g e e ii n in t r n un orfr nc e o u in a et se t 03 b nc ma k c r . pe i n ho ha h tra he e i h rpr cso i r t nd t e p rom a e o r no n o ee e c e o u in s se c n be i p o e u san i gy ae a h e r nc p o u s c r fr n e r s l to y tm a m r v d o tt d n l. f f

Ke wo d y rs

C r fr n e Re o u in I e t c t n o e t e r s le Ma h n e r i g o e ee c s l t d n i ai fi m o b e ov d o i f o t c i el a n n

0引言 指代是自然语言中常见的语言现象,它是指在语篇中

用一 个指代词回指某个以前说到过的语言单位,对保持文章的连这贯性上起着重要的作用。指代的类型有很多,仅包括人称代不

1相关工作 早期指代消解研究主要利用了领域和语言语法知识形成逻辑规则进行消解,比较具有代表性的方法包括: o b算法, H bs中心理论,基于句法的方法等。例如,文献[] 3使用句法树进行代词的指代消解,出的算法中就没有考虑代词指向某一语句的提 情况。

词、指示代词,还包括零代词、一般名词短语,甚至包括句子或者句群。文献[]道了有关英语各指代类型在篇章中分布情 1报

况,并指出代词性指代占整体指代的大部分。 指代消解是为篇章内的所有指代词寻找所指代的语言单位

由于基于规则的方法需要专家构建大规模的知识库,费既

时又费力,因此现在转向机器学习的方法。文献[]出了一 4给 种基于特征的待消解项识别方法。他们选取了包括词法、法、语 句式、义、置等多方面的 3语位 7个特征, MU -以 C6和 M C7作 U -为语料,成对所有指代词都进行识别的待消解项识别模型并 生

的过程,代词指代消解主要考察代词和近邻名词短语之间的指 代关系。待消解项识别是判断指代消解中指代词是否真正指某个语言单位,多指代消解的研究都忽略了待消解项识别这一 很

将其应用于已有的指代消解系统,虽然特征比较多,但在对代词 的待消解项识别几乎未起作用,要原因是缺乏能反映代词特 主性的特征。 文献[] 2利用统计的方法对代词“t的局部上下文句式进 i” 收稿日期:0 9—1 2。陈九昌,士, 20 2— 0硕主研领域:自然语言处理。

任务,认为所有名词性短语都是待消解项,都必须为其寻找合适 的先行语。而事实并非如此,如英语中出现频度最高的单词例之一…t, i’统计表明约有 2%至 5%的“t是非待消解项。 5 0 i” 随着指代消解性能的逐步提高,消解项识别应用的需求将越待 来越多。

指代消解中代词待消解项识别研究

Word文档免费下载Word文档免费下载:指代消解中代词待消解项识别研究 (共1页,当前第1页)

指代消解中代词待消解项识别研究相关文档

最新文档

返回顶部