词性标注说明_128601491

人民日报标注语料库(PFR )使用说明书

本文是PFR 标注语料库的使用说明书,帮助用户了解它,更好地使用它。

PFR 语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。文章中的每个词语都带有词性标记。目前的标记集里有26个基本词类标记(名词n 、时间词t 、处所词s 、方位词f 、数词m 、量词q 、区别词b 、代词r 、动词v 、形容词a 、状态词z 、副词d 、介词p 、连词c 、助词u 、语气词y 、叹词e 、拟声词o 、成语i 、习惯用语l 、简称j 、前接成分h 、后接成分k 、语素g 、非语素字x 、标点符号w )外,从语料库应用的角度,增加了专有名词(人名nr 、地名ns 、机构名称nt 、其他专有名词nz );从语言学角度也增加了一些标记,总共使用了40多个个标记。

二.格式说明

1. 语料是纯文本文件,文件中每一行代表一自然段或者一个标题,一篇文章有若干个

自然段,因此在语料中一篇文章是由多行组成的。 2. 文件名格式为 “月-日-版号-篇章号”。

3. 一篇文章里面的段落之间是不空行的,在两篇文章之间,会有一个空行,表示文章

的分界线,同时,下一篇文章的“篇章号-段号”都会有所改变。 4. 标号之后,是2个单字节空格,然后开始正文。

5. 正文部分按照规范已经切分成词,并且加上标注,标注的格式为“词语/词性”,即

词语后面加单斜线,再紧跟词性标记。词与词之间用2个单字节空格隔开。每段最后的词,在标记之后也有2个单字节空格,保持格式一致。 6. 语料中除了词性标记以外,还有“短语标记”,这种情况一般出现在机构团体名称、

成语等情况中。如“通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w”中,用“[ ]”合起来的部分是一个完整的机构团体名称,方括号后面紧跟标注nt ,nt 之后空两个单字节空格,保持了格式的一致。

三.例子

迈向/v 充满/v 希望/n 的/u 新/a 世纪/n ——/w 一九九八年/t 新年/t 讲话/n (/w 附/v 图片/n 1/m 张/q )/w „„

在/p 1998年/t 来临/v 之际/f ,/w 我/r 十分/m 高兴/a 地/u 通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w [中国/ns 国际/n 广播/vn 电台/n]nt 和/c [中央/n

电视台/n]nt ,/w 向/p 全国/n 各族/r 人民/n ,/w 向/p [香港/ns 特别/a 行政区/n]ns 同胞/n 、/w 澳门/ns 和/c 台湾/ns 同胞/n 、/w 海外/s 侨胞/n ,/w 向/p 世界/n 各国/r 的/u 朋友/n 们/k ,/w 致以/v 诚挚/a 的/u 问候/vn 和/c 良好/a 的/u 祝愿/vn !/w

人民日报标注语料库(PFR )使用说明书

本文是PFR 标注语料库的使用说明书,帮助用户了解它,更好地使用它。

PFR 语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。文章中的每个词语都带有词性标记。目前的标记集里有26个基本词类标记(名词n 、时间词t 、处所词s 、方位词f 、数词m 、量词q 、区别词b 、代词r 、动词v 、形容词a 、状态词z 、副词d 、介词p 、连词c 、助词u 、语气词y 、叹词e 、拟声词o 、成语i 、习惯用语l 、简称j 、前接成分h 、后接成分k 、语素g 、非语素字x 、标点符号w )外,从语料库应用的角度,增加了专有名词(人名nr 、地名ns 、机构名称nt 、其他专有名词nz );从语言学角度也增加了一些标记,总共使用了40多个个标记。

二.格式说明

1. 语料是纯文本文件,文件中每一行代表一自然段或者一个标题,一篇文章有若干个

自然段,因此在语料中一篇文章是由多行组成的。 2. 文件名格式为 “月-日-版号-篇章号”。

3. 一篇文章里面的段落之间是不空行的,在两篇文章之间,会有一个空行,表示文章

的分界线,同时,下一篇文章的“篇章号-段号”都会有所改变。 4. 标号之后,是2个单字节空格,然后开始正文。

5. 正文部分按照规范已经切分成词,并且加上标注,标注的格式为“词语/词性”,即

词语后面加单斜线,再紧跟词性标记。词与词之间用2个单字节空格隔开。每段最后的词,在标记之后也有2个单字节空格,保持格式一致。 6. 语料中除了词性标记以外,还有“短语标记”,这种情况一般出现在机构团体名称、

成语等情况中。如“通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w”中,用“[ ]”合起来的部分是一个完整的机构团体名称,方括号后面紧跟标注nt ,nt 之后空两个单字节空格,保持了格式的一致。

三.例子

迈向/v 充满/v 希望/n 的/u 新/a 世纪/n ——/w 一九九八年/t 新年/t 讲话/n (/w 附/v 图片/n 1/m 张/q )/w „„

在/p 1998年/t 来临/v 之际/f ,/w 我/r 十分/m 高兴/a 地/u 通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w [中国/ns 国际/n 广播/vn 电台/n]nt 和/c [中央/n

电视台/n]nt ,/w 向/p 全国/n 各族/r 人民/n ,/w 向/p [香港/ns 特别/a 行政区/n]ns 同胞/n 、/w 澳门/ns 和/c 台湾/ns 同胞/n 、/w 海外/s 侨胞/n ,/w 向/p 世界/n 各国/r 的/u 朋友/n 们/k ,/w 致以/v 诚挚/a 的/u 问候/vn 和/c 良好/a 的/u 祝愿/vn !/w


相关文章

  • 汉语句子的语块标注规范
  • 汉语句子的语块标注规范(V3.0) 1 概述 语块(chunk)标注属浅层句法分析,主要目的是通过标注显示一个句子的结构骨架.语块标注在语法理论上应是中性的,以便使短语结构语法.依存语法.配价语法.范畴语法等不同流派的语法学者都能利用这种带 ...查看


  • 现代汉语语料库加工规范
  • 现代汉语语料库加工规范 --词语切分与词性标注 1999年3月版 北京大学计算语言学研究所 1999年3月14日 ⒈ 前言 北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究.第一步是对原 始语料进行切分和词性标注.1994年 ...查看


  • 国内外英语学习者语料库的发展_现状与方法
  • 第105期2005年10月 外语电化教学 CAFLE No.105 Oct. 2005 语言技术研究 国内外英语学习者语料库的发展: 现状与方法 王立非,孙晓坤 1 2 (1.对外经济贸易大学,北京 100029;1.2.南京国际关系学院, ...查看


  • 现代汉语考试题
  • 第一卷 一.名词解释1.实词2.区别词3.兼语词4.紧缩复句5.同义句式二.填空题1.现代汉语语法的备用单位是语素.____.______.2.机构主义语法的创始人是____.3.虚词是表示数目和次序的词,分为基数词和____.." ...查看


  • 文本情感分析论文总结
  • 文本情感分析 赵妍妍, 秦兵, 刘挺 - 软件学报, 2010 - jos.org.cn 按粒度,情感分析可分为词语级.短语级.句子级.篇章级.多篇章级:按文本类别,可分为基于新闻评论和基于产品的情感分析. 情感分析的研究任务:情感信息的抽 ...查看


  • 人物关系抽取
  • 学 士 学 位 论 文 论文题目: 基于人物信息嵌入的人物关系挖掘 姓 名: 刘春花 学 号: BK1231209 院 系: 信息科学学院 专 业: 计算机科学与技术 指导教师: 于东 二〇一六 年 六 月 北京语言大学学士学位论文 (20 ...查看


  • 机器翻译方法的研究现状
  • 第33卷第2期 2004年6月内蒙古师范大学学报自然科学(汉文) 版Journal of Inner Mongolia Normal University (Natural Science Edition ) Vol. 33No. 2J u ...查看


  • 现代汉语同音词研究
  • 几十年来,不少学者研究探讨这个问题,提供了若干统计资料. 但总的来说,统计的资料还不够丰富,统计的范围也不够广泛. 为了给这项研究工作提供有关数据,本文以<现代汉语词典>(第5版)为对象,对现代汉语词汇中的同音词进行了详尽的统计 ...查看


  • 5地方性旅游景区翻译语料库的创建与应用_谭兴
  • 地方性旅游景区翻译语料库的创建与应用 谭 兴,石婕妤 (贺州学院外国语学院,广西贺州542800)* 摘前景. 关键词:地方性:旅游景区:翻译:语料库doi :10.3969/j.issn.2095-5642.2014.010.079中图分 ...查看


热门内容