024047中文文本情感倾向性分析

中文文本情感倾向性分析

黄萱菁赵军关键词：情感倾向语料库

复旦大学

向—文本情感倾向性分析。

引言

所谓文本情感倾向性分析，就是对说话人的态度（或称观点、情感）进行分析，即对文大约在两年半前，《新华网》、《环球时本中的主观性信息进行分析。由于立场、出发报》等大众媒体纷纷转载了英国《新科学家》点、个人状况和偏好的不同，民众对生活中各杂志的一则报道，英国Corpora软件公司开发了种对象和事件所表达出的信念、态度、意见和一套名为“感情色彩（Sentiment）”的软件2，情绪的倾向性必然存在很大的差异。在论坛、它能判断报纸刊登的文章对一个政党的政策是博客（blog）等反应草根观点的网络媒体上，持肯定态度还是否定态度，或者网上的评论文这种差异表现得尤为明显。

章是称赞还是贬低一种产品，并以此帮助政府长期以来，要了解关于某个问题的报道和一些大公司全面了解公众对他们的看法。这是正面的还是反面的，是消极的还是中立的，则报道之所以引起了舆论的广泛关注，是因为往往需要求助于调查公司。这些公司的员工仔它介绍了一个非常新颖而又很有价值的研究方

细阅读有关某个机构、个人、事件或问题的所

图1 英国Corpora软件公司的“感情色彩（Sentiment）”的软件

本项研究受国家自然科学基金课题资助（60673038，60673042）。2

http://www.corporasoftware.com/products/sentiment.aspx

有文字，然后就这些评论的态度做出反馈。这不仅耗费了大量人力和财力，而且过程相当缓慢。由此可见，文本情感倾向性的自动分析具有很好的商业应用前景。

文本情感倾向性分析属于计算语言学的范畴。以前，在计算语言学以及相关领域，研究人员普遍关注的是客观性信息的分析和提取，对主观性信息分析与提取的研究尚处于起步阶段，其中存在的很多问题都需要进行全面探索。这项研究涉及到计算语言学、人工智能、机器学习、信息检索和数据挖掘等多方面研究内容，因此文本情感倾向性分析也具有重要的学术研究价值。

总体来看，文本情感倾向性分析的研究大致可以分成词语情感倾向性分析、句子情感倾向性分析、篇章情感倾向性研究以及海量信息的整体倾向性预测等四个研究层次。接下来将首先介绍在各个层次所取得的研究进展，其次介绍情感倾向性分析标准语料库的建设和系统评测，最后是本文的结论。

傲”在表示“自豪”概念时，是褒义词；而在表示“自满”概念时，则是贬义词。

词语情感倾向分析包括对词语极性、强度和上下文模式的分析。其分析结果甚至可以写入到语义词典中，如北京大学计算语言学研究所以基于人民日报基本标注语料库的真实文本为实例，进行统计归纳得到词语的情感倾向，而后在现代汉语语法信息词典中实现形式化[1]。词语情感倾向分析目前主要有以下三种方法：

1．由已有的电子词典或词语知识库扩展生成情感倾向词典。英文词语情感倾向信息的获取主要是在WordNet4和General Inquirer 5的基础上进行的文献[3-4] ；而中文词语情感倾向信息的获取依据主要有HowNet[5]。这种方法的主要思想是，给定一组已知极性的词语集合作为种子，对于一个情感倾向未知的新词，在电子词典中找到与该词语义相近并且在种子集合中出现的若干个词，根据这几个种子词的极性，对未知词的情感倾向进行推断。这种方法对种子词数量的依赖比较明显。

2．无监督机器学习的方法。这种方法与第1种方法类似，也是假设已经有一些已知极性的词语作为种子词，对于一个新词，根据它和种子词的紧密程度对其情感倾向性进行推断。不同的是，第1种方法的词语紧密程度的度量是以词典信息为依据判断，而这种方法是根据词语在语料库中的同现情况判断其联系紧密程度。根据文献[6-7]的经典方法，假设以“真”、“善”、“美”作为褒义种子词，“假”、“恶”、“丑”作为贬义种子词，则任意其它词语的语义倾向定义为，将与各褒义种子词的点态互信息量（Point of Contact Information，PMI）之和，减去与各贬义种子词的点态互信息量之和后所得的结果。语义倾向的正负号就可以表示词语的极性，而绝对值

词语情感倾向性分析

对词语的情感倾向进行研究是文本情感倾向分析的前提。具有情感倾向的词语以名词、动词、形容词和副词为主，包括人名、机构名、产品名、事件名等命名实体。其中，除部分词语的褒贬性（或称为极性，通常分为褒义、贬义和中性三种）可以通过查词典3的方式得到之外，其余词语的极性都无法直接获得。此外，词语的情感倾向还包括倾向性的强烈程度。例如，“谴责”的强度就远远超过了“批评”和“指责”，而这种强度很难由词典编撰者用人工的方式进行量化。另外，词语的极性往往取决于特定的上下文环境，例如，“骄

例如，General Inquirer [Stone,1966]，知网：heep://www.keenage.com4

WordNet5

通用查询者，最早为KWIC编写的程序之一，该程序根据基于理论编写的词典给单词分类。

就代表了强度。词语A和B的点态互信息量定义为它们在语料库中的共现概率与A、B概率之积的比值。这个值越高，就意味着相关性越大。有趣的是，点态互信息量计算可通过搜索引擎进行。计算A的概率，可以把A当作查询送给搜索引擎，那么返回的Hits值（含有A的页面数）和总的索引页面数的比值，就可以认为是A的概率。要计算A和B的共现概率，只要把A和B同时送给搜索引擎即可。这种方法同样存在着对种子集的依赖性比较强的问题，而且噪声比较大。

3．基于人工标注语料库的学习方法。首先图2 新闻报道中的名人

对情感倾向分析语料库进行手工标注。标注的对象则是在特定上下文中出现的语句。其任务级别包括文档级标注（即只判断文档的情感倾就是对句子中的各种主观性信息进行分析和提向性）、短语级标注和分句级标注。在这些语取，包括判断句子的情感倾向，以及从中提取料的基础上，利用词语的共现关系、搭配关系出与情感倾向性论述相关联的各个要素。这些或者语义关系，判断词语的情感倾向性。这种要素包括情感倾向性论述的持有者、评价对方法需要大量的人工标注语料库，典型的工作象、倾向极性和强度，甚至是论述本身的重要如威博（Wiebe）利用词语的搭配模式发现在性等。例句（1）：“XXX绝不是一款能放心主观性文本中的倾向性词语及其搭配关系[8]。

开到公路上的SUV7。当然，它在公路上的表现不可不提的是香港城市大学语言资讯科学令人满意”。通过分析我们可以得到以下两条中心在LIVAC6共时语料库上进行的名人信誉情感倾向性论述的要素（见表1）：

分析研究。他们选择泛华语地区有代表性的中表1 例句（1）的情感倾向性论述的要素

文媒体，对相应的新闻报道进行深层次的人工标注，并在该语料库上开展中文文章正负两极性自动分类的研究，通过人物褒贬指数的计算，发布京港台双周名人榜，并用—10～10之间的数表示名人在三地报章的信誉度[9]。例如果说句子是点，那么由句子构成的篇章如在某段时间内，“陈水扁”中国大陆、中国是线，而由多篇文章组成的语料库就是面。在香港和中国台湾的信誉度分别是—10、—6.2句子情感倾向分析的基础上，可以很方便地进和—4.6。

行篇章的情感倾向分析，甚至可以得到海量信息的整体倾向性态势。

句子情感倾向性分析

长期以来，客观性信息提取一直是计算语言学的研究热点，但尚未研究透彻。近词语情感倾向分析的处理对象是单独的年来自动内容提取会议（Automatic Content

词语或者实体，而句子情感倾向性分析的处理

Extraction，ACE）的评测结果也表明，虽然命

6 Linguistic Variations in Chinese Speech Communities，汉语各地区语言差异研究7

Sport Utility Vehicle，运动型多用途车

名实体识别和指代消解的性能尚可，但实体间关系的提取则显得很困难8，特别在主观性信息的提取方面更是如此。在这方面，有关英文信息的研究很少，且集中在对句子情感倾向性的判断上[10,12]。在此基础上，文献[11]尝试识别情感倾向性论述的持有者。而关于系统地提取句子的情感倾向性信息的多个要素方面的研究，目前还少有报道。

对中文的研究主要集中在句子情感倾向性论述的某个侧面。例如，文献[14]的主要工作是在情感倾向性论述中定位评价对象。考察下面两个例句：

（a）功能很全面，价格也很便宜。（b）我买电脑时最关心的是功能和价格。

在例句a中，“功能”和“价格”是评价对象，但在例句b中并不是。该文主要考察的是在只有规模很小的标注语料可用时，如何采用半监督自学习方法对评价对象进行迭代学习。

文献[13]则关注于句子情感倾向性的判断。文中提出了一个分级模型，可以将句子的主客观性判别、褒贬分类和褒贬分级统一在一起：将句子分为主观句和客观句，主观句分成赞扬和贬斥两类，每类再分成强烈和微弱两种强度，并提出了一种基于多重标记CRF (Conditional Random Field，条件随机域)的方法加以解决。

文献[15]针对的具体任务是抽取评价词和目标对象之间的关联关系。这里的关联除了句法上的直接关联，还包括语义上的间接关联。目标对象又细分为直接评价对象和间接评价对象两种。如在例句“品牌A的造型很美观”中，评价词是“美观”，“造型”是“美观”直接评价的对象，而“品牌A”是间接评价对象。他们把在同一句子中共现的评价词与评价对象作为候选集合，应用最大熵模型进行关系

抽取。

篇章情感倾向性研究

篇章级情感倾向性分析，就是要从整体上判断某个文本的情感倾向性，即褒贬态度。有代表性的工作包括文献[6]和文献[16]对电影评论的分类。文献[6]的方法是通过将文档中词和短语的倾向性进行平均，来判断文档的倾向性。这种方法基于情感倾向性词典，不需要人工标注文本情感倾向性的训练语料。文献[16]的工作是将电影评论的数据按照倾向性分成两类，利用人工标注文本倾向性的训练语料、基于一元（Unigram）和二元（Bigram）等特征以及学习分类器。

将篇章作为一个整体，笼统地进行主观性分析存在很大局限性，其本质缺陷在于假设整个文本是针对同一个对象进行评论。而真实文本往往包含多个对象，不同的对象所涉及到的观点、态度等主观性信息是有差异的。从另一方面看，篇章内的对象总数仍然有限，不足以支撑对整体倾向性的挖掘。因此，这两年根据情感倾向对篇章进行褒贬态度分类的研究有减少的趋势；更多的研究集中在篇章内进行情感倾向性论述的分析，以及在大规模数据集上进行整体倾向性分析。

海量数据的整体倾向性预测

所谓整体倾向性预测，是针对海量数据而言的，其主要任务是：对从不同信息源抽取出的、针对某个话题的情感倾向性信息进行集成和分析，进而挖掘出态度的特点和走势。

杜兰特（Durant）提出利用网络日志（Web log）来帮助对博客情感倾向性进行分类[19]。芝加哥伊利诺依大学（University of Illinois

http://www.nist.gov/speech/ tests/ace/index.htm

Chicago，UIC）的刘（Liu）和胡（Hu）等人讨论了从评论中挖掘产品特性的方法，从而得到用户对产品或者产品某个特性的整体倾向性[17-18]。例如，他们根据用户评论来比较两个款式的数码相机，并用如图3所示的可视化文摘来显图3 可视化的文摘分析结果

示分析结果，每列代表相机的一个属性，水平线表示中立态度，彩条则反映了用户的褒贬度的主要取值范围。

日本富士通公司则开发出了从中、日、英三种语言的博客和论坛中提取对企业及其产品的评价信息的技术[20]，根据从万维网上抓取的大量用户评论得到产

图4 某产品在3个月内用户评价的情况品的整体信誉度，以图表的形式展现不同时间里常新颖的研究方向，一开始并没有一个文本情企业和品牌的正面或负面评价信息9。例如，图4感倾向性分析的评测规范对该领域的研究任务显示了某产品在3个月内用户评价的情况，其中进行清晰的定义。同时也没有一个被普遍接受绿、红两种颜色分别表示某一天持肯定、否定态的文本情感倾向性分析的标准语料库来支撑关度的评论数，而蓝线则表示评论总数。

键技术的研究、评测和应用系统的开发。这个该系统受到了产业界的广泛关注，日经产问题使得一段时间内该领域的研究显得比较混业新闻、日刊工业新闻等报刊和网络媒体对此乱，不能进行客观的比较测试，严重地影响了进行了广泛的报道。上海交通大学也开发了一该领域的研究水平和技术发展。

个类似的用于汉语汽车论坛的意见挖掘系统。国外的研究人员已经意识到了这个问题，其目的是在电子公告板、门户网站的各大论坛并开始着手解决。影评数据集10是使用较多的上挖掘并且概括顾客们对各种汽车品牌的不同一个语料库，由电影评论组成，其中持肯定和性能指标的评论和意见，并判断这些意见的褒否定态度的各1000篇。另外还有标注了整体贬性和强度。然后，通过对文本处理的综合统褒贬极性的句子各5000句。影评库广泛应用计，给出可视化的结果[21]。

于词汇和篇章情感倾向研究，但由于未进行更细粒度的标注，它不适应句子情感倾向性分析标准语料库建设

的要求。

美国农业部北部研究中心的夏季研讨在国外，文本情感倾向性分析还是一个非

会（NRRC11 Summer

Workshop）开发的多观

http://www.fujitsu.com/cn/frdc/news/20070123.html10

http://www.cs.cornell.edu/people/pabo/movie%2Dreview%2Ddata/

Northeast Regional Research Center，美国农业部北部研究中心

难，标注者之间更容易产生不一致，此外也会带来一定程度的数据稀疏问题。

系统评测

2006年，文本检索会议（Text REtrieval Conference，TREC）新增加了博客检索评测任务12，对于给定的查询，要求在博客数据集上

图5 二分图表示的一组深层标注结果

（近30GB，320万篇）检索带有观点的文章。例如，给定查询对象“Skype13”，要求检索出的网页必须和“Skype”相关，且必须含有主观性信息，而不能是纯客观的叙述。除了观点检索任务之外，还有一个篇章态度分类的子任务，给定一批人工标注了正负极性的训练语料，用来测试基于监督学习的篇章态度分类系统。

如图6所示，在提交的50多组检索结果中，观点检索和常规的相关性检索在性能方面有很大的差距，前者约为后者的2/3，说明主观性分析的准确率还有很大的提升空间[25]。

亚洲语言信息检索评测会议（NTCIR14）的观点分析评测同样出现在2006年。不同于文本检索会议所关注的观点检索，亚洲语言信息

点问题回答（Multiple-Perspective Question Answering，MPQA）库是一个进行了深度标注的语料库，它标出了倾向性论述的持有者、对象、极性、强度等要素[22-23]。图5是用二分图表示的一组深层标注结果，原文的大意是美国发布的人权报告引起了许多国家的不满。图中左部表示情感倾向论述的持有者，右部为评价对象，箭头上的标记则显示了倾向性的极性和强度。

多观点问题回答语料库存在的主要问题是规模太小，只有57篇文章进行了深度标注，但它所建立的标注规范还是很有意义的。

关于语料标注，还有一个值得关注的问题，即极性和强度应该如何标注？通常把极性分为褒义、贬义和中性3类，而把强度分成强、中、弱3个级别。是否可以分得更细，研究者们做了许多有意义的尝试，例如，文献[24]把情感细分为乐、好、怒、哀、惧、恶、惊等，共计7大类、20小类。一般来说，较多的层次表现力更强，更能体现语言上的细微

差别，但也会给人工标注带来困图6 观点检索和常规的相关性检索的性能比较曲线

http://ir.dcs.gla.ac.uk/wiki/TREC-BLOG13

一款简单的免费软件，使用P2P技术使用户能够在世界上的任何角落拨打免费电话。14

National Center for Science Information Systems Test Collections for IR，日本国家科学资讯系统中心信息检索测试集合。http://research.nii.ac.jp/ntcir/ntcir-ws6/opinion/index-en.html

为主观性信息提取。这两个任务目前已经取得了文本检索会议和亚洲语言信息检索评测会议的关注。另外，如果和问题回答相结合，就是多视角的问题回答；和自动文摘特别是多文档自动文摘相结合，就是

图7 亚洲语言信息检索评测会议观点分析的路线图

基于观点的文摘。这些都将成为很有意义的研究方向。

检索评测会议评测的主要任务是从新闻报道中其次是和We b2.0技术的紧密结合。文本提取主观性信息，并建立中、英、日3种语言检索会议评测选择的是博客语料，亚洲语言信的标准语料库。给定各个语种的句子，要求参息检索评测会议首次评测是在新闻语料上进行加评测的系统判断句子是否和篇章的主题相的，从第二次起就转移到博客语料上。这是因关，并从句子中提取出观点持有者，评价词极为博客、论坛作为草根媒体，可以反映大众的性等信息。

真实情感和态度。其中，最为企业界关注的，图7是亚洲语言信息检索评测会议观点分是从顾客自主媒体（Consumer Generated Media，析的路线图，可以看出他们的目标是进行多语C G M）上获取产品评论信息，分析用户对于种、多信息源、多粒度、深层次的主观性信息产品是持肯定还是否定的态度，并进行综合分提取。这一目标通过渐近方式实现，比如，即析，而这也是最困难的任务。

将开始的NTCIR-7评测已经将注意力转移到博和国外的研究相比，中文的情感倾向性分客信息源，而对于情感倾向论述，也开始尝试析有一定滞后，现有的主要工作集中在词语的提取被评价对象。

情感倾向性分析。对情感倾向进行更细致的研究，特别是句子级的倾向性分析和海量信息的结语

整体倾向预测，将是未来的主要研究趋势。与此同时，制订情感倾向性语料库标注规范，充总结情感倾向性分析的研究现状，我们可分覆盖情感倾向性论述的要素；按照严格的程以发现以下两个特点：

序进行人工标注和一致性检验，得到较大规模首先是情感倾向分析能给现有的自然语言的细粒度标注语料库，并在此基础上对情感倾处理加入许多新的研究内容。和文本检索相结向分析方法进行客观公正的评测，必将是对中合的产物是观点检索；和信息提取相结合，即

文情感倾向研究的重大贡献。■

黄萱菁

赵军

中国计算机学会高级会员，复中国计算机学会高级会员，中旦大学计算机科学与工程系教国计算机学会名词审定工作授，博士生导师。1998年获得委员会委员。中国科学院自动复旦大学计算机软件专业博士化研究所模式识别国家重点实学位。研究兴趣：自然语言处

验室副研究员，博士生导师。理和信息检索。

1998年获得清华大学计算机应用专业博士学位。研究兴趣包括：自然语言处理、信息检索

和信息提取。

参考文献

[1] Stone, Philip J., Dunphy, Dexter, Smith, Marshall, Ogilvie, Daniel, 1966. The General Inquirer: A Computer

Approach to Content Analysis. MIT

[2] 王治敏, 朱学锋, 俞士汶, 基于现代汉语语法信息词典的词语情感评价研究, Recent advancement in Chinese

Lexical Semantics, Proceeding of 5th Chinese Lexical Semantics Workshop (CLSW-5), 2004, Singapore

[3] Hatzivassiloglou and McKeown, Predicting the Semantic Orientation of Adjectives. In: Proceedings of ACL-97, 35th

Annual Meeting of the Association for Computational Linguistics, pages 174-181, Association for Computational Linguistics, Madrid, ES, 1997.

[4] Theresa Wilson , Janyce Wiebe, and Paul Hoffmann, Recognizing Contextual Polarity in Phrase-Level Sentiment

Analysis, HLT-EMNLP-2005

[5] 朱嫣岚, 闵锦, 周雅倩, 黄萱菁, 吴立德, 基于HowNet 的词汇语义倾向计算, 中文信息学报, 2006(1)

[6] Turney Peter, Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of

Reviews. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. 417-424, 2002

[7] Turney, Peter D., & Littman, Michael L. 2003. Measuring praise and criticism: Inference of semantic orientation from

association. ACM Transactions on Information Systems, 21(4), 315-346

[8] J. Wiebe, J. M. A corpus study of evaluative and speculative language. In Proceedings of the 2nd ACL SIG on

Dialogue Workshop on Discourse and Dialogue (Aalborg, Denmark)

[9] T'sou Benjamin, Kwong Olivia, Wong Wei-Lung, Lai Tom. 2005, Sentiment and Content Analysis of Chinese News

Coverage, International Journal of Computer Processing of Oriental Languages, 18: 171-183

[10] Kim, S. & E. Hovy. 2004. Determining the Sentiment of Opinions. In: Proceedings of COLING-04: the 20th

International Conference on Computational Linguistics, 2004

[11] Soo-Min Kim and Eduard Hovy, Identifying Opinion Holders for Question Answering in Opinion Texts 2005, In:

Proceedings of AAAI-05 Workshop on Question Answering Restricted Domains. 2005

[12] J. Wiebe and E. Riloff, Creating Subjective and Objective Sentence Classifiers from Unannotated Text. In:

Proceedings of CICLING, 2005

[13] 王根, 赵军, 基于多重标记CRF的句子情感分析研究, 全国第九届计算语言学学术会议, 清华大学出版社, 大

连, 2007

[14] 王波, 王厚峰,基于自学习策略的产品特征自动识别, 全国第九届计算语言学学术会议, 清华大学出版社, 大

连, 2007

[15] 章剑锋, 张奇, 黄萱菁, 吴立德, 中文评论挖掘中的主观性关系抽取, 第三届全国信息检索与内容安全学术会

议, 苏州, 2007

[16] Pang. B, L. Lee, and S. Vaithyanathan. Thumbs up? Sentiment. Classification using Machine Learning Techniques.

In: Proceedings of EMNLP 2002

[17] Hu, Minqing, & Liu, Bing. 2004a. Mining and summarizing customer reviews. Pages 168-177 of: Proceedings of

KDD'04

[18] Liu, Bing, Hu, Minqing, & Cheng, Junsheng. 2005. Opinion observer: analyzing and comparing opinions on the Web.

Pages 342-351 of: Proceedings of WWW'05

[19] Kathleen T. Durant & Michael D. Smith. 2006. Mining Sentiment Classification from Political Web Logs.

Proceedings of WEBKDD'06

[20] 张军, 于浩, 内野宽治, UGC中产品评论信息的挖掘, 全国第九届计算语言学学术会议, 清华大学出版社, 大

连, 2007

[21] 姚天, 聂青阳, 李建超, 一个用于汉语汽车评论的意见挖掘系统中国中文信息学会二十周年学术会议,2006

年, 北京

[22] Janyce Wiebe, Eric Breck, Chris Buckley, Claire Cardie, Paul Davis, Bruce Fraser, Diane Litman, David Pierce,

Ellen Riloff, Theresa Wilson, NRRC Summer Workshop on MPQA: Multi-Perspective Question Answering, Final Report, 2002

[23] Wiebe, Janyce, Wilson, Theresa, and Cardie, Claire. Annotating Expressions of Opinions and Emotions in Language.

Language Resources and Evaluation, 2005

参考文献

[24] 陈建美, 林鸿飞, 杨志豪, 基于贝叶斯模型的词汇情感消歧, 全国第九届计算语言学学术会议, 清华大学出

版社, 大连, 2007

[25] Iadh Ounis , Maarten de Rijke, Craig Macdonald, Gilad Mishne, Ian Soboroff, Overview of the TREC-2006 Blog

Track, Proceedings of TREC2006, Gaithersburg, USA