浅层语义分析研究

计算机研究与发展

Journal of Computer Research and Development ISSN 100021239ΠCN 1121777ΠTP

45(Suppl 1) :321~325, 2008

浅层语义分析研究

陈耀东 王 挺 陈火旺

(国防科学技术大学计算机学院 长沙 410073) (yaodong 1chen @gmail 1com )

Shallow Semantic Parsing R esearch

Chen Yaodong , Wang Ting , and Chen Huowang

(School of Com puter Science , N ational U niversity of Def ense , Abstract  Semantic parsing is a fundamental understanding 1Shallow semantic parsing , as methodology , can be a and development of shallow semantic parsing is explored , and , to semantic role labeling are introduced 1A comparison is role systems in English and one in Chinese , and features of statistic a syntactic and semantic view 1

K ey w ords  semantic parsing ; semantic role labeling ; verb frames ; role system ; features

摘 要 语义分析是自然语言理解领域研究的根本性问题, 浅层语义分析为此提供了一种新的解决途

径1从语义学的角度讨论了浅层语义分析的发展历史和理论基础, 概述了语义角色标注任务的定义、相关资源与方法1还着重介绍并比较了当前英语两大语义角色体系和汉语角色体系, 最后给出了浅层语义分析中统计模型的现有特征集的句法语义分类1

关键词 浅层语义分析; 语义角色标注; 动词框架; 角色体系; 特征集中图法分类号 TP18

  语义分析是自然语言理解的根本性问题, 也是计算语言学研究中的重大难题1语义分析指的是在分析句子的句法结构和辨析句中每个词词义的基础上, 推导句义的形式化表示1先前的语义分析主要集中于词汇语义学, 包括词义标注与消歧、词义本体库的构建; 句子级的分析以面向应用为主, 缺少跨领域的重用性1语义分析的难点主要有以下几个:1) 语义固有的复杂性1现今有关意义本质的理论共有7种[1], 研究理论种类繁多, 意义和语义分析难以获得精确界定12) 语义与语法表现为从属关系, 语义受句法的束缚难以获得独立发展1计算语言学对语言的分析一直以来追求“全面”和“深层”的目标, 但在复杂语言现象下, 这种思想难免收效甚微1与之相对, 浅层分析采用“片面”和“浅层”的理念, 在满足应用的前提下, 为解决复杂语言现象提供了一条

 收稿日期:2007-07-10

新的途径1

1 浅层语义分析

浅层分析是近10年来计算语言学在方法学上

的重大突破, 其基本思想是基于一套非严格定义的标签体系, 标注句子的部分成分并以标注结构作为分析结果1浅层分析摒弃了深层成分和关系的复杂性, 因而能在真实语料环境下实现快速分析算法, 获得比深层分析(full parsing ) 更高的正确率1浅层分析首见于C oNLL 22000[2]文本组块分析(text chunking ) 1

在关联理论(linking theory ) 的推动下,CoNLL 22004[3]提出了面向语义的共享任务———语义角色标注(semantic role labeling ,SRL ) , 目标是结合语料库技术与机器学习方法, 开发识别动词框架并标注

 基金项目:国家自然科学基金项目(60403050) ; 教育部“新世纪优秀人才支持计划”基金项目

322

计算机研究与发展 2008, 45(增刊)

框架内语义角色的系统1SRL 的研究分为两个方面:

1) 浅层语义体系的开发1主要涉及谓词框架的构建, 角色的界定与分类1谓词框架的构建分为人工构建和自动学习[425]两种1角色界定与分类关注角色体系间的相关性研究与框架映射[6]1

2) 分析方法的研究1主要涉及标注的过程、对象与方法1标注过程分为角色识别(identification ) 和角色分类(classification ) 1前者指从句法成分中找出可能的候选成分; 后者指给候选成分以正确的分类1另外, 在识别之前与分类之后, 一些启发式的剪枝规则通常帮助去除交叉候选成分和冗余角色1浅层语义分析关注的对象主要有词、短语、组块与句法关系, 研究较多是短语[7]和组块[8]1统计模型在SRL 取得较好应用, 如ME [9][10], CRF [11]等1文献[7,10]对SRL 特征和所属语义场的位置决定12) 集合论与义元论1集合论通过一组词来表示概念, 义元论以数量很小

的词汇集作为解释自然语言词汇意义的基础13) 范畴论与框架1语义框架是由Fillmore 于1977年提出, 框架是经验、信念或实践的结构背景, 一个概念由与之相关的一组概念标识(即概念的范畴) 1对于动词, 这组概念标识即是语义角色1框架是动词语义的表述形式, 标注框架是语义分析的实现形式1语义角色受动词支配, 角色根据不同的角度有着不同外延1, 角色是该动(participator ) ; 的看, 带句法功能的题元) ,SRL 是该方法论的实现形式, 它将语义分析问题转换为框架成分的识别与分类的任务1

212 英语语义标注体系

综合评测1

2 语义角色体系是浅层语义分析的重要组成部分, 角色体系的构建与应用主要体现在对动词的分

类也即动词的子范畴化(subcategory ) 之上, 然而对动词的语义分类目前面临着诸多困难[12]1本节我们将阐述动词框架和角色的相关理论, 论述并比较英语两大标注集(VerbNet 和FrameNet ) 构建角色体系的理论依据, 最后讨论汉语的语义角色体系1211 动词框架与语义角色的基本理论

英语目前有两大语义角色体系:FrameNet 和VerbNet , 其共同的理论基础是范畴论和框架语义1

1) FrameNet , FrameNet 的动词分类依据是词

义的场景表述, 即表述同一场景的动词归入一类, 场景由框架实现1语义角色是场景的参与者, 也是框架的组成部分, 角色类型和数量是可扩展的1FrameNet 按领域划分, 领域下辖框架, 早期的FrameNet 分有12个领域,67个框架, 涉及1462个

谓语用词(927个动词、339个名词、175个形容词) , 我们以文献[13]中的例子为例, 图1中C ommunication 和C ognition 表示两个领域,Questioning ,C onversation , Statement ,Judgment 和Categorization 表示框架;Argue , Banter ,Debate ,Dispute 等归属Conversation 框架, 表

通过对语义理论的研究, 我们将语义意义(the meaning of meaning ) 的表述形式和相关理论分为3类:1) 语义场与成分论1基本思想是, 词通过某些共同语义特征(语义成分) 类聚成语义场, 词义由语义

示是同类谓词,Blame , Admire , Disapprove , Dispute

图1 FrameNet 动词框架

陈耀东等:浅层语义分析研究

323

等属于J udgment 框架, 也归属为同类1J udgment 框架内含有J udge , Evaluee , Reason , Role 四个框架元素(frame elements ) , 即表示该框架的角色1FrameNet 对每个框架所适用的场景、框架元素有详细注释, 并列出适用于某个框架的动词集合1由于动词按场景分类, 一个动词如果适用于不同场景, 将归属于不同框架, 另一方面, 同一框架下的动词不能视为同义词1例如图1中Dispute 归属于两个框架是因为它可以表述两个不同场景, 而不表示它为多义词1

2) VerbNet ,VerbNet 对动词的分类基于动词的句法表现, 其直接地依据来自Levin class [14]1VerbNet 的语义角色称之为题元(或者论元argument ) , 它是成分1Levin 元理论, 她认为“的组成部分”, :,Levin class 以动词句法结构的趋近“等价于”语义的趋近, 论元数量和类型相似的动词具有内在的“语义”相似性1依据上述思想,Levin 采用替换(alternations ) 作为分类工具1替换是一套鉴定动词语义相似性的测试规则集, 它能同时衡量动词的内在词义和句法表现的相关性1Levin 共构建73种替换, 将3100个动词分为193类1VerbNet 的类别有大小之分, 大类表示一个框架所有可能出现的角色集和共享的alternation 形式, 小类表示具备大类角色集的子集并共享某些特有alternation 的动词集1与FrameNet 类似, VerbNet

中一个动词可能归属不同框架, 同一框架下的动词不一定是同义词1

我们对VerbNet 与FrameNet 简单总结如下:1) 两大体系构建的理论基础和表述方式一致, 即动词语义由框架表述, 动词与角色共同组成框架, 动词按框架分类但框架不是简单的同义词集;2) 两大体系采用了不同的分类标准, 角色数量与类型不同; FrameNet 按场景划分动词, 同类动词具有相似的参与者集, 角色数量与类型具有扩充性, VerbNet 按Levin 的alternations , 121, 其理论基1汉语语义角色体系当前属于纯, 其特点有:1) 角色体系众多, 角色相互交叠1目前已提出的汉语语义角色体系有袁毓林(17种) 、孟琮(14种) 、邓守信(9种) 、鲁川(22种) 等12) 角色研究与动词研究相互独立, 角色研究以考察句法功能和范畴特征为主, 缺乏动词与角色的关系的系统研究13) 角色研究的角度单一, 缺乏量化, 未形成类似Levin alternations 的具体测试集合14) 面向汉语的角色标注语料库渐具雏形1宾州大学(University of Pennsylvania ) 于2005年开发了Chinese PropBank 110, 该语料库以宾州中文树库(Chinese Tree Bank ) 为对象, 涉及4865个动词框架, 标注37183个动词实例1

下面我们以袁毓林的角色体系[15]为代表, 考察分析现有汉语角色体系的特点(如表1所示) :

表1 袁毓林语义角色体系

角色名称施事感事受事与事工具方式范围

发出者

Sentient , 非自主的感知性事

角色注释

Agent , 自主性动作、行为的

语义特征自立性, 使动性自立性, 感知性自立性, 变化性, 受动性自立性, 受动性, 参与性自立性, 位移性非自立性, 附庸性

示例

小王吃了1个馒头1弟弟正看电视呢1老王认识李校长1刘老师太累了1老陈吃了1个苹果1弟弟打了1个茶杯1张三给了李四一本词典1小王用水果刀切黄瓜1爸爸用显微镜看切片1这些纸包得捆双十字1他用低音唱歌1一个西瓜卖3块钱1会议持续了3个小时1

句法特征

①做句子主语; ②相应动词受“不”或“没有”限定不同; ③角色不能共现

①做宾语; ②受事、与事做双宾语句的宾语; ③受事、结果做把子句的宾语; ④各角色可共现

①做介词宾语; ②某些可以通过话题化作主语; ③不具有使动性和受动性;

①范围作为外围论元; ②命题整体充当主体或客体

件的主体

Patient , 因施事的行为而受到

影响的事物

Dative , 动作、行为的非主动

的参与者

Instrument , 动作、行为所凭

借的器具

Material , 动作、行为所用的材

Range , 动作、行为所涉及的

数量、频率、度、时间等

324

计算机研究与发展 2008, 45(增刊)

  汉语角色界定的主要依据是句法特征和语义特

征1其中, 句法特征描述角色可担任的句法成分, 例如“施事”可做主语“、受事”做宾语等, 还描述角色对应的动词或介词的一些特征1语义特征为角色对应的词汇意义的内在特征1比较该语义角色体系后, 我们发现汉英语言现象具有的一些共通性和相异性, 共通性如:

1) 宾语→主语1A 1他用这把刀削苹果来着~B 1这把刀, 他用着来削苹果1

这里我们可以把B 句的“这把刀”分析为是A 句VP →V NP 结构中NP 提前到S 外, 在原来位置留下虚迹(trace ) , 因而B 句也可以写成:1) C 1这把刀, 他用着3trace 3来削苹果1

比英语的角色更广泛, 如:

2) 方式→宾语113) 场所→1吃食堂1

对于上述两句, 英语没有合适的理论解释方式角色或场所角色转换做宾语的现象1另外我们还观察到, 汉语语言学对角色的研究很少涉及动词的特征, 如动词的及物性与不及物性等1与FrameNet 和VerbNet 不同, 汉语角色的界定既与动词的词义无关, 也与动词的句法表现(即alternations ) 无关1

在角色分类阶段, 分析对象为候选角色, 属语义成分, 因而选取含语义信息的特征可以取得比较好的效果1文献[10]在相同测试环境下横向比较上述特征, 结论表明Path 是识别阶段最重要的特征; Head Word 和Predicate 是分类阶段最重要的特征1

表2 特征的句法语义分类(仅列出基本特征)

特征名

Predicate Path Phrase Head Word Sub 2categorization

句法特征语义特征

√√

√√

特征说明

谓词本身

候选成分到谓词的最小

如VP

候选成分与谓词的前后相对位置

谓词是主动语态还是被动语态

候选成分对应的中心词谓词扩展的短语结构规则

4 结  语

本文主要从语义学的角度讨论了浅层语义分析的发展历史与基本思想, 概述了SRL 的任务、资源和方法, 并着重探讨了几个具体角色体系的构建依据和结构1依据框架语义和范畴理论, 浅层语义分析将自然语言的“理解”这一难题转化为面向句法成分的角色识别与标注任务1在比较和研究后, 我们认为浅层语义分析下一步研究的重点与难题包括有:①如何解决语义角色体系间在分类依据、构建方法和体系结构上的异构性; ②如何开发富含特定语言知识的特征和克服数据稀疏; ③如何开展面向汉语的浅层语义分析的研究1

[1][2][3][4]

3 浅层分析方法中的特征设计

自20世纪80年代语料库技术兴起以来, 统计

模型已成为语言处理的主要策略, CoNLL 22004因此将SRL 任务建立在基于机器学习系统的开发上1与采用何种模型相比, 选取何种特征对提高任务的性能更为重要[16]1在SRL 中, 特征表现为角色标注成分本身的信息和上下文信息, 当前已得到应用的基本特征有:Predicate , Path , Phrase Type , Position , Voice , Head W ord , Sub 2categorization 等1文献[10,16]讨论了不同阶段采用的特征集并介绍一些新特征, 尝试了现有特征的组合1下面, 我们从句法和语义两个角度考察现有特征集, 如表2所示1

我们把所有与词性、短语相关的特征归为句法特征, 把所有描述词和词子类的特征归为语义特征1对特征进行句法和语义的分类可为SRL 的两个子任务提供选取特征的依据1在角色识别阶段, 分析对象是句法成分, 目标是判断成分是否为候选角色, 因而选取含句法信息的特征可以取得比较好的效果1

考文献

李福印1语义学概论1北京:北京大学出版社, 2006

http :ΠΠwww 1cnts 1ua 1ac 1be Πconll2000, 2000http :ΠΠwww 1cnts 1ua 1ac 1be Πconll2004, 2004

Pascale Fung , Zhaojun Wu , Y ongsheng Yang , et al 1Automatic learning of Chinese 2English semantic structure mapping 1IEEE ΠACL 2006Workshop on Spoken Language Technology (SL T 2006) , Aruba , 2006

[5]Izaskun Aldezabal Roteta 1Levin ’s verb classes and basque :A comparison approach 1UMIACS Computational Linguistics Colloquium , College Park , Maryland , 1998

[6]A G iuglea , A Moschitti 1Semantic role labeling via frameNet , VerbNet and PropBank 1COL IN G ΠACL 2006, Sydney , 2006

陈耀东等:浅层语义分析研究

[7][8][9][10]

V Punyakanok , D Roth , W Y ih 1The necessity of syntactic parsing for semantic role labeling 1CoNLL , Boston , 2004K Hacioglu , S Pradhan , W Ward , et al 1Semantic role labeling by tagging syntactic chunks 1CoNLL , Boston , 2004

J H Lim , Y S Hwang , S Y oung Park , et al 1Semantic role labeling using maximum entropy model 1CoNLL , Boston , 2004S Pradhan , K Hacioglu , V Krugler , et al 1Support vector learning for semantic argument classification 1Machine Learning Journal , Special Issue on Speech and Natural Language Processing , 2005, 60(123) :11-39

[11][12]

Trevor Cohn , Philip Blunsom 1Semantic role labeling with three conditional random fields 1CoNLL , Ann Arbor , 2005

[16][15][14]

325

Beth Levin 1English verb classes and alternations :A preliminary investigation 1Chicago :The University of Chicago Press , 1993

袁毓林1一套汉语动词论元角色的语法指标1世界汉语教学,

2003, (3) :24-36

Nianwen Xue , Martha Palmer 1Calibrating features for semantic role labeling 1EMNL P , Barcelona , 2004

  陈耀东 男,1978年生, 博士研究生, 主要研究方向为自然语言处理1

  王 挺 男,1970年生, 博士, 博士生导师, 主要研究方向自然语言处理、1

, , 教授, 博士生、计算机软件1

詹卫东1词的语义分类在汉英机器翻译中所起的作用以及难以处理的问题1见:陈力为编1编语言工程1北京:清华大学出版社, 1997

[13]D G ildea , D J urafsky 1Automatic labeling of semantic Computer Linguist , 2002, 28(3) :245-288

计算机研究与发展

Journal of Computer Research and Development ISSN 100021239ΠCN 1121777ΠTP

45(Suppl 1) :321~325, 2008

浅层语义分析研究

陈耀东 王 挺 陈火旺

(国防科学技术大学计算机学院 长沙 410073) (yaodong 1chen @gmail 1com )

Shallow Semantic Parsing R esearch

Chen Yaodong , Wang Ting , and Chen Huowang

(School of Com puter Science , N ational U niversity of Def ense , Abstract  Semantic parsing is a fundamental understanding 1Shallow semantic parsing , as methodology , can be a and development of shallow semantic parsing is explored , and , to semantic role labeling are introduced 1A comparison is role systems in English and one in Chinese , and features of statistic a syntactic and semantic view 1

K ey w ords  semantic parsing ; semantic role labeling ; verb frames ; role system ; features

摘 要 语义分析是自然语言理解领域研究的根本性问题, 浅层语义分析为此提供了一种新的解决途

径1从语义学的角度讨论了浅层语义分析的发展历史和理论基础, 概述了语义角色标注任务的定义、相关资源与方法1还着重介绍并比较了当前英语两大语义角色体系和汉语角色体系, 最后给出了浅层语义分析中统计模型的现有特征集的句法语义分类1

关键词 浅层语义分析; 语义角色标注; 动词框架; 角色体系; 特征集中图法分类号 TP18

  语义分析是自然语言理解的根本性问题, 也是计算语言学研究中的重大难题1语义分析指的是在分析句子的句法结构和辨析句中每个词词义的基础上, 推导句义的形式化表示1先前的语义分析主要集中于词汇语义学, 包括词义标注与消歧、词义本体库的构建; 句子级的分析以面向应用为主, 缺少跨领域的重用性1语义分析的难点主要有以下几个:1) 语义固有的复杂性1现今有关意义本质的理论共有7种[1], 研究理论种类繁多, 意义和语义分析难以获得精确界定12) 语义与语法表现为从属关系, 语义受句法的束缚难以获得独立发展1计算语言学对语言的分析一直以来追求“全面”和“深层”的目标, 但在复杂语言现象下, 这种思想难免收效甚微1与之相对, 浅层分析采用“片面”和“浅层”的理念, 在满足应用的前提下, 为解决复杂语言现象提供了一条

 收稿日期:2007-07-10

新的途径1

1 浅层语义分析

浅层分析是近10年来计算语言学在方法学上

的重大突破, 其基本思想是基于一套非严格定义的标签体系, 标注句子的部分成分并以标注结构作为分析结果1浅层分析摒弃了深层成分和关系的复杂性, 因而能在真实语料环境下实现快速分析算法, 获得比深层分析(full parsing ) 更高的正确率1浅层分析首见于C oNLL 22000[2]文本组块分析(text chunking ) 1

在关联理论(linking theory ) 的推动下,CoNLL 22004[3]提出了面向语义的共享任务———语义角色标注(semantic role labeling ,SRL ) , 目标是结合语料库技术与机器学习方法, 开发识别动词框架并标注

 基金项目:国家自然科学基金项目(60403050) ; 教育部“新世纪优秀人才支持计划”基金项目

322

计算机研究与发展 2008, 45(增刊)

框架内语义角色的系统1SRL 的研究分为两个方面:

1) 浅层语义体系的开发1主要涉及谓词框架的构建, 角色的界定与分类1谓词框架的构建分为人工构建和自动学习[425]两种1角色界定与分类关注角色体系间的相关性研究与框架映射[6]1

2) 分析方法的研究1主要涉及标注的过程、对象与方法1标注过程分为角色识别(identification ) 和角色分类(classification ) 1前者指从句法成分中找出可能的候选成分; 后者指给候选成分以正确的分类1另外, 在识别之前与分类之后, 一些启发式的剪枝规则通常帮助去除交叉候选成分和冗余角色1浅层语义分析关注的对象主要有词、短语、组块与句法关系, 研究较多是短语[7]和组块[8]1统计模型在SRL 取得较好应用, 如ME [9][10], CRF [11]等1文献[7,10]对SRL 特征和所属语义场的位置决定12) 集合论与义元论1集合论通过一组词来表示概念, 义元论以数量很小

的词汇集作为解释自然语言词汇意义的基础13) 范畴论与框架1语义框架是由Fillmore 于1977年提出, 框架是经验、信念或实践的结构背景, 一个概念由与之相关的一组概念标识(即概念的范畴) 1对于动词, 这组概念标识即是语义角色1框架是动词语义的表述形式, 标注框架是语义分析的实现形式1语义角色受动词支配, 角色根据不同的角度有着不同外延1, 角色是该动(participator ) ; 的看, 带句法功能的题元) ,SRL 是该方法论的实现形式, 它将语义分析问题转换为框架成分的识别与分类的任务1

212 英语语义标注体系

综合评测1

2 语义角色体系是浅层语义分析的重要组成部分, 角色体系的构建与应用主要体现在对动词的分

类也即动词的子范畴化(subcategory ) 之上, 然而对动词的语义分类目前面临着诸多困难[12]1本节我们将阐述动词框架和角色的相关理论, 论述并比较英语两大标注集(VerbNet 和FrameNet ) 构建角色体系的理论依据, 最后讨论汉语的语义角色体系1211 动词框架与语义角色的基本理论

英语目前有两大语义角色体系:FrameNet 和VerbNet , 其共同的理论基础是范畴论和框架语义1

1) FrameNet , FrameNet 的动词分类依据是词

义的场景表述, 即表述同一场景的动词归入一类, 场景由框架实现1语义角色是场景的参与者, 也是框架的组成部分, 角色类型和数量是可扩展的1FrameNet 按领域划分, 领域下辖框架, 早期的FrameNet 分有12个领域,67个框架, 涉及1462个

谓语用词(927个动词、339个名词、175个形容词) , 我们以文献[13]中的例子为例, 图1中C ommunication 和C ognition 表示两个领域,Questioning ,C onversation , Statement ,Judgment 和Categorization 表示框架;Argue , Banter ,Debate ,Dispute 等归属Conversation 框架, 表

通过对语义理论的研究, 我们将语义意义(the meaning of meaning ) 的表述形式和相关理论分为3类:1) 语义场与成分论1基本思想是, 词通过某些共同语义特征(语义成分) 类聚成语义场, 词义由语义

示是同类谓词,Blame , Admire , Disapprove , Dispute

图1 FrameNet 动词框架

陈耀东等:浅层语义分析研究

323

等属于J udgment 框架, 也归属为同类1J udgment 框架内含有J udge , Evaluee , Reason , Role 四个框架元素(frame elements ) , 即表示该框架的角色1FrameNet 对每个框架所适用的场景、框架元素有详细注释, 并列出适用于某个框架的动词集合1由于动词按场景分类, 一个动词如果适用于不同场景, 将归属于不同框架, 另一方面, 同一框架下的动词不能视为同义词1例如图1中Dispute 归属于两个框架是因为它可以表述两个不同场景, 而不表示它为多义词1

2) VerbNet ,VerbNet 对动词的分类基于动词的句法表现, 其直接地依据来自Levin class [14]1VerbNet 的语义角色称之为题元(或者论元argument ) , 它是成分1Levin 元理论, 她认为“的组成部分”, :,Levin class 以动词句法结构的趋近“等价于”语义的趋近, 论元数量和类型相似的动词具有内在的“语义”相似性1依据上述思想,Levin 采用替换(alternations ) 作为分类工具1替换是一套鉴定动词语义相似性的测试规则集, 它能同时衡量动词的内在词义和句法表现的相关性1Levin 共构建73种替换, 将3100个动词分为193类1VerbNet 的类别有大小之分, 大类表示一个框架所有可能出现的角色集和共享的alternation 形式, 小类表示具备大类角色集的子集并共享某些特有alternation 的动词集1与FrameNet 类似, VerbNet

中一个动词可能归属不同框架, 同一框架下的动词不一定是同义词1

我们对VerbNet 与FrameNet 简单总结如下:1) 两大体系构建的理论基础和表述方式一致, 即动词语义由框架表述, 动词与角色共同组成框架, 动词按框架分类但框架不是简单的同义词集;2) 两大体系采用了不同的分类标准, 角色数量与类型不同; FrameNet 按场景划分动词, 同类动词具有相似的参与者集, 角色数量与类型具有扩充性, VerbNet 按Levin 的alternations , 121, 其理论基1汉语语义角色体系当前属于纯, 其特点有:1) 角色体系众多, 角色相互交叠1目前已提出的汉语语义角色体系有袁毓林(17种) 、孟琮(14种) 、邓守信(9种) 、鲁川(22种) 等12) 角色研究与动词研究相互独立, 角色研究以考察句法功能和范畴特征为主, 缺乏动词与角色的关系的系统研究13) 角色研究的角度单一, 缺乏量化, 未形成类似Levin alternations 的具体测试集合14) 面向汉语的角色标注语料库渐具雏形1宾州大学(University of Pennsylvania ) 于2005年开发了Chinese PropBank 110, 该语料库以宾州中文树库(Chinese Tree Bank ) 为对象, 涉及4865个动词框架, 标注37183个动词实例1

下面我们以袁毓林的角色体系[15]为代表, 考察分析现有汉语角色体系的特点(如表1所示) :

表1 袁毓林语义角色体系

角色名称施事感事受事与事工具方式范围

发出者

Sentient , 非自主的感知性事

角色注释

Agent , 自主性动作、行为的

语义特征自立性, 使动性自立性, 感知性自立性, 变化性, 受动性自立性, 受动性, 参与性自立性, 位移性非自立性, 附庸性

示例

小王吃了1个馒头1弟弟正看电视呢1老王认识李校长1刘老师太累了1老陈吃了1个苹果1弟弟打了1个茶杯1张三给了李四一本词典1小王用水果刀切黄瓜1爸爸用显微镜看切片1这些纸包得捆双十字1他用低音唱歌1一个西瓜卖3块钱1会议持续了3个小时1

句法特征

①做句子主语; ②相应动词受“不”或“没有”限定不同; ③角色不能共现

①做宾语; ②受事、与事做双宾语句的宾语; ③受事、结果做把子句的宾语; ④各角色可共现

①做介词宾语; ②某些可以通过话题化作主语; ③不具有使动性和受动性;

①范围作为外围论元; ②命题整体充当主体或客体

件的主体

Patient , 因施事的行为而受到

影响的事物

Dative , 动作、行为的非主动

的参与者

Instrument , 动作、行为所凭

借的器具

Material , 动作、行为所用的材

Range , 动作、行为所涉及的

数量、频率、度、时间等

324

计算机研究与发展 2008, 45(增刊)

  汉语角色界定的主要依据是句法特征和语义特

征1其中, 句法特征描述角色可担任的句法成分, 例如“施事”可做主语“、受事”做宾语等, 还描述角色对应的动词或介词的一些特征1语义特征为角色对应的词汇意义的内在特征1比较该语义角色体系后, 我们发现汉英语言现象具有的一些共通性和相异性, 共通性如:

1) 宾语→主语1A 1他用这把刀削苹果来着~B 1这把刀, 他用着来削苹果1

这里我们可以把B 句的“这把刀”分析为是A 句VP →V NP 结构中NP 提前到S 外, 在原来位置留下虚迹(trace ) , 因而B 句也可以写成:1) C 1这把刀, 他用着3trace 3来削苹果1

比英语的角色更广泛, 如:

2) 方式→宾语113) 场所→1吃食堂1

对于上述两句, 英语没有合适的理论解释方式角色或场所角色转换做宾语的现象1另外我们还观察到, 汉语语言学对角色的研究很少涉及动词的特征, 如动词的及物性与不及物性等1与FrameNet 和VerbNet 不同, 汉语角色的界定既与动词的词义无关, 也与动词的句法表现(即alternations ) 无关1

在角色分类阶段, 分析对象为候选角色, 属语义成分, 因而选取含语义信息的特征可以取得比较好的效果1文献[10]在相同测试环境下横向比较上述特征, 结论表明Path 是识别阶段最重要的特征; Head Word 和Predicate 是分类阶段最重要的特征1

表2 特征的句法语义分类(仅列出基本特征)

特征名

Predicate Path Phrase Head Word Sub 2categorization

句法特征语义特征

√√

√√

特征说明

谓词本身

候选成分到谓词的最小

如VP

候选成分与谓词的前后相对位置

谓词是主动语态还是被动语态

候选成分对应的中心词谓词扩展的短语结构规则

4 结  语

本文主要从语义学的角度讨论了浅层语义分析的发展历史与基本思想, 概述了SRL 的任务、资源和方法, 并着重探讨了几个具体角色体系的构建依据和结构1依据框架语义和范畴理论, 浅层语义分析将自然语言的“理解”这一难题转化为面向句法成分的角色识别与标注任务1在比较和研究后, 我们认为浅层语义分析下一步研究的重点与难题包括有:①如何解决语义角色体系间在分类依据、构建方法和体系结构上的异构性; ②如何开发富含特定语言知识的特征和克服数据稀疏; ③如何开展面向汉语的浅层语义分析的研究1

[1][2][3][4]

3 浅层分析方法中的特征设计

自20世纪80年代语料库技术兴起以来, 统计

模型已成为语言处理的主要策略, CoNLL 22004因此将SRL 任务建立在基于机器学习系统的开发上1与采用何种模型相比, 选取何种特征对提高任务的性能更为重要[16]1在SRL 中, 特征表现为角色标注成分本身的信息和上下文信息, 当前已得到应用的基本特征有:Predicate , Path , Phrase Type , Position , Voice , Head W ord , Sub 2categorization 等1文献[10,16]讨论了不同阶段采用的特征集并介绍一些新特征, 尝试了现有特征的组合1下面, 我们从句法和语义两个角度考察现有特征集, 如表2所示1

我们把所有与词性、短语相关的特征归为句法特征, 把所有描述词和词子类的特征归为语义特征1对特征进行句法和语义的分类可为SRL 的两个子任务提供选取特征的依据1在角色识别阶段, 分析对象是句法成分, 目标是判断成分是否为候选角色, 因而选取含句法信息的特征可以取得比较好的效果1

考文献

李福印1语义学概论1北京:北京大学出版社, 2006

http :ΠΠwww 1cnts 1ua 1ac 1be Πconll2000, 2000http :ΠΠwww 1cnts 1ua 1ac 1be Πconll2004, 2004

Pascale Fung , Zhaojun Wu , Y ongsheng Yang , et al 1Automatic learning of Chinese 2English semantic structure mapping 1IEEE ΠACL 2006Workshop on Spoken Language Technology (SL T 2006) , Aruba , 2006

[5]Izaskun Aldezabal Roteta 1Levin ’s verb classes and basque :A comparison approach 1UMIACS Computational Linguistics Colloquium , College Park , Maryland , 1998

[6]A G iuglea , A Moschitti 1Semantic role labeling via frameNet , VerbNet and PropBank 1COL IN G ΠACL 2006, Sydney , 2006

陈耀东等:浅层语义分析研究

[7][8][9][10]

V Punyakanok , D Roth , W Y ih 1The necessity of syntactic parsing for semantic role labeling 1CoNLL , Boston , 2004K Hacioglu , S Pradhan , W Ward , et al 1Semantic role labeling by tagging syntactic chunks 1CoNLL , Boston , 2004

J H Lim , Y S Hwang , S Y oung Park , et al 1Semantic role labeling using maximum entropy model 1CoNLL , Boston , 2004S Pradhan , K Hacioglu , V Krugler , et al 1Support vector learning for semantic argument classification 1Machine Learning Journal , Special Issue on Speech and Natural Language Processing , 2005, 60(123) :11-39

[11][12]

Trevor Cohn , Philip Blunsom 1Semantic role labeling with three conditional random fields 1CoNLL , Ann Arbor , 2005

[16][15][14]

325

Beth Levin 1English verb classes and alternations :A preliminary investigation 1Chicago :The University of Chicago Press , 1993

袁毓林1一套汉语动词论元角色的语法指标1世界汉语教学,

2003, (3) :24-36

Nianwen Xue , Martha Palmer 1Calibrating features for semantic role labeling 1EMNL P , Barcelona , 2004

  陈耀东 男,1978年生, 博士研究生, 主要研究方向为自然语言处理1

  王 挺 男,1970年生, 博士, 博士生导师, 主要研究方向自然语言处理、1

, , 教授, 博士生、计算机软件1

詹卫东1词的语义分类在汉英机器翻译中所起的作用以及难以处理的问题1见:陈力为编1编语言工程1北京:清华大学出版社, 1997

[13]D G ildea , D J urafsky 1Automatic labeling of semantic Computer Linguist , 2002, 28(3) :245-288


相关文章

  • 心理咨询师答辩
  • 案例报告部分 1.案例报告是否自己亲自处理? 因为没有资质,所以是在上级心理咨询师的帮助下做的.在案例咨询过程中我参与了部分工作. 2.案例诊断状况的可靠性?(为什么对求助者的心理和行为问题的发生和发展做这样的分析,理论以及和实践依据是什么 ...查看


  • 形式动词的词汇语义和句法功能20040317
  • 形式动词的词汇语义和句法功能 (初稿详细摘要) 俞士汶 朱学锋 段慧明 北京大学计算语言学研究所 2004年3月17日星期三 1. 形式动词的所指 北京大学计算语言学研究所开发的<现代汉语语法信息词典>(以下简称<语法信息 ...查看


  • 关于英语作文智能评阅系统的介绍及启迪_吴方
  • [教育求索] ··总第471期 关于英语作文智能评阅系统的介绍及启迪 □吴 (南京工业大学 方 南京 210000) 外语学院,江苏 摘要:本文评述近年来国内外作文自动评分系统中的关键技术,依据其英语作文测试中的效用和其可操作性对其进行分析 ...查看


  • 有声思维法 输出与相关输入对_注意_和语言习_
  • 外语界2015年第1期(总第166期) "注意"输出与相关输入对和语言习得的作用 ---一项基于翻译活动的个案研究 耿 华 王 伟 陆美慧 * "注意""汉提要:本研究依据输出假说关于输出之 ...查看


  • 深度学习最权威综述
  • 深度学习最权威综述!业界三大神LeCun.Bengio和Hinton 联合打造 三大牛Yann LeCun.Yoshua Bengio和Geoffrey Hinton在深度学习领域的地位无人不知.为纪念人工智能提出60周年,最新的<N ...查看


  • 知识图谱技术原理介绍
  • 知识图谱技术原理介绍 近两年来,随着Linking Open Data 1等项目的全面展开,语义Web 数据源的数量激增,大量RDF 数据被发布.互联网正从仅包含网页和网页之间超链接的文档万维网(Document Web )转变成包含大量描 ...查看


  • 符号的交际功能
  • 符号的交际功能 胡霞罗昕 (浙江大学.杭州:310028) 摘要:交际是符号的基本功能之一,符号的交际功能赋予了符号世界强大的生命力.从符号学的意义上说.人类的交际行为是指人们运用符号传情迭意,进行人际间的讯息交流和讯息共享的行为协调过程. ...查看


  • 怎么处理好英语中的听说读写
  • 怎么处理好英语中的听说读写 邹琼瑶 在英语学习中,听说读写能力的培养显得特别重要.那么,怎么处理好英语中的听说读写呢? 一.听力的培养 坚持常听不懈 在技巧方面,我从以下几方面人手:. l.注意对话的环境和交流的信息.在理解对话时充分了解其 ...查看


  • 黄土路堤边坡浅层加筋加固机理分析及工程应用
  • 第38卷第11期 2005年11月 土 木 工 程 学 报 CHI NA CI VI L E NGI NEERI NGJOURNA L V ol 138N o 111N ov 1 2005 黄土路堤边坡浅层加筋加固机理分析及工程应用 杨有海 ...查看


热门内容