国内外英语学习者语料库的发展_现状与方法

第105期2005年10月

外语电化教学

CAFLE

No.105

Oct. 2005

语言技术研究

国内外英语学习者语料库的发展:

现状与方法

王立非,孙晓坤

1

2

(1.对外经济贸易大学,北京 100029;1.2.南京国际关系学院,江苏南京 210039)摘 要:本文对国内外英语学习者语料库的发展现状作出评述,讨论了近年来兴起的第二语言习得研究的新分支———基于学习者语料库的第二语言习得研究的理论与方法。

关键词:学习者语料库;第二语言习得研究;现状中图分类号:H319.9

文献标识码:A

文章编号:1001-5795(2005)05-0019-0006

料是由各种不同母语背景的大学三、四年级高级学习者的作文输入计算机组成,国际上众多大学参与了ICLE的建设。目前,ICLE中的文本是由14种不同母语背景的英语学习者撰写的。这些学习者来自法国、德国、荷兰、西班牙、瑞士、芬兰、波兰、捷克、保加利亚、俄罗斯、意大利、希伯来、日本和中国。ICLE按照不同母语把学习者的文本分成14个子库,并且还在增加新的子库,如葡萄牙语、卢森堡语、挪威语和南非语。ICLE中既有定时作文,也有不定时作文,每篇长度在500至1000词之间;既有考试试卷,也有自由完成的作文;既有参考工具书完成的,也有不用的。尽管题目各异,但全是非科技类文章和议论文,库中

表1 国外主要英语学习者书面语语料库

名称ICLEJEFLLJPUMELDPELCRAUSELLCCLC

书面语、商业性书面语、语料类型

建设国比利时Louvain大学日本Meikai大学匈牙利Pecs大学

母语背景容量(万词)多种母语日语匈牙利语

[**************]00>[1**********]

  学习者语料库与一般语料库不同,它是指经过计算机处理的外语学习者的语言产出的文本数据库(Leech1998:3),属于学习者中介语范畴。大型的学习者语料库经过词性赋码、错误赋码、语义赋码或句法标注就能使我们从中发现中介语发展的重要规律和特点。本文将对国内外学习者语料库的发展现状和基于学习者语料库的第二语言习得研究方法作一个评述。

1 国外学习者语料库发展的现状

目前国际上对学习者语料库的研究大体上分为三个方面:①学习者语料库的建设与开发,主要是语料库的设计和与学习者语料库的建设相关的软件开发,由语言学和软件两个专业的人员合作完成。②基于学习者语料的二语习得研究,包括语音、语法、词汇和语篇的各个方面。③学习者语料研究在语言教学中的应用,利用学习者语料的数据编写词典、语法书、选择课文材料和开发自学的电子产品。目前,在语料库建设方面,据不完全统计,已经建成和在建的学习者英语书面语语料库8个,口语库2个。

1.1 书面语语料库

就书面语语料库而言,其中2个为商业性语料库,主要用于出版社的学习辞书和教材编写,其余6个为研究性语料库,用于研究第二语言学习者的中介语发展。

(1)国际英语学习者语料库———ICLE

ICLE(InternationalCorpusofLearnerEnglish)是最重要的学习者语料库之一,容量为200万词,1990年启动,项目负责人为比利时Louvain-La-Neuve大学的SylvianeGranger教授。语

研究性美国Montclair州立大学多种母语

波兰Lodz大学瑞典Uppsala大学英国朗文出版公司英国剑桥大学出版社比利时Louvain大学日本Meikai大学等

波兰语瑞典语多种母语多种母语多种母语日语

LINSEI口语、SSTC

研究性

作者简介:王立非(1962-)男,博士,教授,博士生导师。研究方向:应用语言学,二语习得,语料库语言学。

孙晓坤(1977-)女,博士生。研究方向:应用语言学,二语习得。

收稿日期:2005-03-02

·19·

王立非,等:国内外英语学习者语料库的发展:现状与方法

还包含一小部分文学考试试卷。荷兰大学TOSCA语料库语言学研究小组开发的TOSCA-ICLE赋码软件对ICLE进行赋码和句法切分。赋码系统包括17种主要的词类,共有220个不同的编码符,代表其中的子类和语义、句法和词形信息,软件系统现可在MS-DOS环境下运行。这个语料库的错误赋码通过一套错误赋码系统完成,该系统由Louvain-la-Neuve大学开发,名叫错误编辑器(ErrorEditor),能对每个错误进行赋码。错误编辑器的赋码系统为阶梯式,由一套主码和一套辅码分类组成,其中主码分为7类,即形式、语法、词汇语法、词汇、语域、词语冗长/词语丢失、词序和文体,然后还有一些辅码,一旦错误赋码完成,就可以根据错误码检索文本进行分析。目前,经过TOSCA软件词性赋码和错误编辑器错误标注的语料没有对外开放,公开发行的光盘版的语料生语料,在网站上可以购买,网址为http://www.fltr.ucl.ac.be/fltr/germ/etan/cecl/Cecl-Pro-jects/Icle/icle.htm,也可与项目负责人直接联系([email protected])获得语料。

(2)匈牙利英语学习者语料库———JPU

JPU是JozsefHorvath创立的,也是首个西班牙英语学习者的大型语料库。这个语料库包含了1992-1998年间大学高年级外语学习者写的作文语料,共分为5个子库:英语子库、选修课作业子库、语言练习子库、研究生论文子库和写作技巧研究子库。JPU中两类主要文本为作文和研究论文。作文为非文学专业的大学生写的作文,包括个人自传、记叙文和描写文,但没有明确说明是否为非定时写作。JPU的文本进行了半标注,学习者的背景信息和其他信息如课程、学年和体裁是标注的,但词性和语法没有赋码,因此,语料库不能提供相关信息。JPU语料库的建立为语言学研究和语言教育研究提供了理想的材料,研究者可以根据不同的目的对学生的文本进行分析,如对学生的表现进行记录,使历时研究成为可能,研究者可以对比5个子语料库,或者比较JPU与母语的差异。JPU的部分语料可在网站http://www.geocities.com/jpu corpus上检索,特别是其中的研究生子库中女生的作文从2001年10月起可以上网查到,其他的一些子库在网站上也有列表。

(3)波兰英语学习者语料库———PELCRA

PELCRA项目是波兰Lodz大学英语系和英国兰卡斯特大学语言学和英语系的一个合作项目,创建于1997年,主要收集波兰英语学习者的各种语料,包括由不同水平的学习者提供的书面材料,从初级学习者到高级学习者。PELCRA中的语料为定时作文,大部分文章是议论文,也有一些记叙文和描写文,每篇长度在300至1000词之间。语料收集的时间为1998-2000年间Lodz英语学院及其附属师范学院的考试语料,学生的英语水平高低不等。语料为学生逐年上交的学年考试作文,因此,每个学生都有3篇作文,为了消除不同水平因素的影响,文章按1-4年级编排。目前的语料全部来自考试,今后的语料收集范围将扩大到考试以外。PELCRA中的部分语料依靠人工进行词性赋码。目前,PELCRA正在制定赋码规则。这个语料库可用于对比研究波兰语和英语在语序上的不同,如:比较前修

饰和后修饰的问题;定冠词和限定语的问题;介词和搭配问题;词汇替代问题以及回避错误问题,该语料库还没有完全建成,如果感兴趣,可以访问以下网址http://www.uni.lodz.pl/pel-cra/samples.htm。

(4)瑞典英语学习者语料库———USE

USE是瑞典Uppsala大学建立的学习者语料库,语料来自瑞典大学高级英语学习者的书面文本语料。1998年开始项目试点,1999年正式启动。USE中的任务环境为非定时作文,体裁多是议论文和叙述文,每篇长度在800至1000词之间,上下浮动200个词。另外,文学和文化课的作业也包括其中。目前,USE的部分语料进行了词性赋码,使用的软件工具为Brilltagger,这个自动赋码器以转化规则为基础而不是根据概率方法设计的。对赋码样本标注后还要进行人工校对,所以准确性很高。但USE中没有常规的错误赋码,如果资金足够,USE也会进行错误赋码。建库的目的是为语言研究和教学提供语料,在一定程度上也用作课程评估,此外,也作为诊断工具,了解不同水平的大学生存在的外语学习困难。目前,USE还在建设之中,具体可以访问http://www.engelska.uu.se/use.html。

(5)日本英语学习者语料库———JEFLL

JEFLL是由日本明海大学于1996年建立的,项目主持人为YukioTono教授。这个语料库的容量为50万词,语料包括定时作文、在20分钟内不用字典写的自由作文,体裁都为描写文和议论文,由于水平不等,每篇长度20至150词不等。JEFLL进行了多种赋码,包括词性赋码、错误赋码、语义赋码和句法分析。用词性赋码采用了CLAWS自动标注器,语义赋码采用了SEMTAG,句法标注用TheApplePieParser,错误赋码依靠人工,还使用了TagEditor和ErrorEditor等工具。这些工具都是专门开发的。JEFLL的特点是语料包括初中、高中和大学生的样本,不局限在一个水平层次上,可以进行语言的发展性研究,比如说对某个词汇、语法或语义特征进行发展性分析研究。当前,JEFLL没有对外开放,但计划在两年内在网上公开发行(ht-tp://leo.meikai.ac.jp/~tono/index.html),既可以做研究用,也可以做商业用途。

(6)美国的英语学习者语料库———MELD

MELD语料库是由美国蒙特克莱尔州立大学的EileenFitz-patrick和MiltonS.Seegmiller联合创建的,语料库的容量较小,约为5万词,语料来自不同母语的高级学习者的英语作文,MELD中作者的个人信息通过学习者问卷收集,包括年龄、性别和语言教育程度。语料为不定时作文,作文每篇平均500个词,库中的文体类型包括议论、因果、比较和对比等。另外还收集了50,000个词语,但还没有经过加工。MELD中不仅有词性赋码,还有错误标注,词性赋码用自动赋码器完成,错误标注依靠人工完成。该语料库的主要目的是为第二语言习得研究提供数据库。通过对语料库中的词性信息和错误进行分类和标注,可以很容易地检索到用法信息。有关该语料库的介绍可以登录以下网址查询:http://www.chss.montclair.edu/chss/lin-guistics/MELD/index.html。

·20·

王立非,等:国内外英语学习者语料库的发展:现状与方法

(7)英国的商业性学习者语料库———CLC和LLC剑桥学习者语料库(CLC)和朗文学习者语料库(LLC)是两个商业性的学习者语料库。商业性语料库和其他语料库的区别,在于建库是为了帮助出版社编辑外语学习词典和外语教材和教辅。尽管传统上词典出版商一般都使用本族语语料作为参考,但近年来,出现了通过建立学习者语料库,分析学习者错误为词典编撰提供依据的新趋势。CLC的的容量很大,收集了全世界不同母语的学习者参加剑桥大学作文考试的语料,文本都是限时作文,时间为1~1.5小时完成。CLC中的文本从Up-perMainSuiteExaminations中选取,背景信息非常全面,考生都填写了考生信息表,包括考试得分和试卷内容。CLC中的所有语料都是匿名的,其中四分之一的语料进行了错误赋码,方便词典编撰者检索学习者使用的例证,如,查找学习者用得好的单词、句式和语法结构,或者利用语料库发现学习者的学习难点。另外,CLC还应用于书面作文的机器阅卷和评分的软件开发。

像CLC一样,《朗文学习者语料库》的容量为几亿词,提供有关单词、用法、语言变化和英语语法句型的深层知识。LLC由世界各国的教师和学生发送来的作文和考试试卷组成,水平层次各异,作文和考试语料既有限时,也有非限时的,每篇作文都标记了作者的国籍、水平、文本类型(作文、书信、考试)、目标语类型(英国英语或美国英语)和居住国信息。LLC没有进行词性赋码,但为《朗文词典》提供参考的那部分进行了错误赋码。有关信息读者可以登陆网站http://www.longman.com/dictionaries/corpus/lccont.html查询。1.2 口语语料库

国外学习者口语语料库的发展与书面语相比不仅容量小而且速度较慢,目前已建成或在建的语料库只有2个。

(1)《LINSEI国际英语中介语口语语料库》(LINSEISpo-kenCorpus)

LINSEI语料库于1995年开始建设,由比利时Louvain大学的S.Granger教授负责([email protected])。该语料库包含多个子库,已建成的一个子库由50段访谈语料转写成的10万词的文本组成,采访对象为法语为母语的英语学习者,其中30位男性,20位女性。目前,正在建立多国英语学习者的若干个中介语子库,包括日本英语学习者、瑞典英语学习者、西班牙英语学习者、意大利英语学习者、保加利亚英语学习者和中国英语学习者等。此外,为了进行对比研究,还建立了英语为母语的平行口语语料库,以研究不同母语背景的英语学习者的中介语变化。目前,语料库建设者希望与世界各国的研究者合作,不断扩大各语种的英语学习者的口语语料。

(2)《日本标准化英语口试语料库》(TheStandardSpeakingTestCorpusofJapaneseEFLLearners)

SSTC语料库为英语口语考试语料库,项目于1999年开始启动,由日本明海大学、Showa女子大学、京都通讯研究实验室、理光软件研究中心、ALC出版社等多所大学和科研机构组成项目组,语料库设计规模为100万词,项目主持人为明海大学的

(1)香港高中生英语语料库———HKUST

HKUST的项目主持人为香港科技大学的约翰·弥尔顿教授([email protected]),语料库容量为2500万词,收集了香港高中生的英语考试作文语料,全部语料均为限时,每篇大约1000词。此外,还有一部分的语料是课外的作业。2001年,研究人员对语料库中百分之一的语料进行了随机人工错误标注和词性赋码,重点围绕以下几方面开展研究:错误频率能否代表学生的实际学习困难?写作环境如何影响学习者的写作水平?错误率是否可以预测?目前已经取得了一些成果。HKUST的错误标注系统和规则(包括错误和非错误范畴)由设计者自行研发,并用人工检验错误标注的准确率。错误标注为文本格式,通过检索错误标注,就可以将错误分类,然后生成错误类型总表。此外,研究者使用了CLAWS词性赋码器,大大提高了赋码速度和一致性。这个语料库可供研究者对比学生限时和课外写作的差异,为分析中国英语学习者的中介语发展提供了数据,同时,也对大纲设计和教材编写极有价值。

(2)香港初中生教学语料库———TSLC

TSLC是香港建立的另一个大型语料库,该项目由香港政府资助,香港大学教育学院主持,于1994年开始建设,其中的学习者语料主要来自香港中学生的(母语是广东话)英语作文文本,文本既有限时的考试作文,也有课外不限时的作文,每篇长度为300-500词之间。同时,还包括个人书信、正式商业信

名称HKUSTTSLCCLECCOLSEC

类型书面语书面语书面语口语

建设单位香港科技大学香港大学广东外语外贸大学等上海交通大学等华南师范大学南京大学

母语背景容量(万词)广东话广东话汉语汉语汉语汉语

>[1**********]087.6>200

TONO教授,全部语料来源为日本标准化分级英语口语水平考试(ACTFL-ALC)的录音,口试的级别从低到高为1-9级,日本的英语学习者均可以参加口试,取得相应的级别证书。2000年,语料库的建设已完成了转写方案的编制、标注方案的编写、标注编辑软件的设计。2001年,完成了口语错误标注方案、错误标注的支持软件研发。2003年,语料库项目结项,公开出版,需要者可以联系购买,联系方式为[email protected]

2 国内英语学习者语料库的发展

我国的学习者语料库建设与研究开始于上个世纪90年代中期,近年来发展迅速,已处于国际领先水平。到2004年为止,已经建成或在建的语料库有6个,其中,香港2个,内地4个。

表2 我国主要的英语学习者语料库

MSEE书面语/口语SWECCL书面语/口语

·21·

王立非,等:国内外英语学习者语料库的发展:现状与方法

函、给编辑的信件、报纸或杂志社论、专门报道、演讲、口头报告和自由作文。这些文章的体裁有记叙文、复述、描写、说明文和议论文,都没有进行任何赋码。这个语料库可以和其他当代英语语料库进行对比分析,也可以对香港中学生写作进行调查分析,发现其中不正确用法的信息,比如过量使用,不少使用以及词汇、搭配或句法错误以及正确的用法。除书面语料库之外,还有教育资源数据库TeleNex,TeleNex由TeleGram和TeleTeach两个超文本数据库组成,包括几个分主题的讨论角。香港的中学教师可以免费上网进入。TeleGram主要提供有关英语语法和用法的信息,而TeleTeach则为教师提供课堂所需要的教学材料。该数据库的网址为http://www.TeleNex.hku.hk。

(3)中国英语学习者语料库———CLEC

《中国学习者英语语料库》(简称CLEC)是国家社科基金“九五”规划项目,语料库光盘版2003年已由上海外语教育出版社出版(桂诗春、杨惠中,2003)。该语料库收集了我国中学生、大学英语4、6级、英语专业低年级和高年级学生在内的100多万词的书面英语语料库,并用人工对所有的语料进行语法标注和言语失误标注,是一部含有言语失误标注的英语学习者语料库。

(4)《中国大学生英语口语语料库》———COLSEC这个语料库是国家社科基金“九五”规划项目———《中国学习者英语语料库》(简称CLEC《语料库》)的后续项目,口语语料库由上海交通大学2002年开始主持建设,设计规模为50万词。目前,上海交通大学、洛阳外国语学院、河南师范大学等高等院校的教师和研究人员参加,主要语料来源为全国大学英语四级口试的录音,将参加面试的大学生的口语语料转写成电子文本,再进行语音和错误标注。目前,转写工作即将完成,标注工作已全面展开,预计将于2005年底出版。

(5)中学生英语语料库———MSEE

MSEE是1998年广东省高等学校电化教育"五个一百工程"的立项课题之一。《中学生书面语语料库》(MSSW)是《中学英语教育语料库》(MSEE)的一个子库,由华南师大外语系负责建设。《中学生英语书面语,口头语语料库(MSSW,MSSS)》的总容量为87.6万词,其中MSSW约为40万词,收集了1997年全国英语高考广东省21市区1200名考生的英语作文和1998年全国英语高考广东省21市区2000名考生的英语作文。该语料库为研究我国中学生的英语书面语发展提供了极为宝贵的数据库,也为教学和教师提供了有用的反馈。

(6)中国英语学生口笔语语料库———SWECCL

《中国英语学生口笔语语料库》(以下简称SWECCL)由国家211工程二期子项目“中国学生英语口语语料库”(SpokenEnglishCorpusofChineseLearners,以下简称SECCL)和教育部人文社科项目“中国大学生英语写作能力发展规律与特点”的数据库“中国学生英语笔语语料库”(WrittenEnglishCorpusofChineseLearners,以下简称WECCL)二个子项目组成,语料库的设计总规模为200万词,其中SECCL口语子库为100万词,WECCL子库为100万词,项目由南京大学主持,外语教学与研

究出版社合作共同开发,笔者作为项目负责人之一,参加了建设全过程,全国共有11所大学的师生参加了建库各阶段的工作。

SECCL口语子库主要依托南京大学英语口语测试中心主持的全国英语专业四级口语考试,语料来源为我国英语专业大学生历年参加四级英语口试的磁带录音语料。口试语料已收集从1996-2002年共7年的英语专业四级口试录音的数码语音样本1148个,以及这些语音样本的电子转写文本1148个,总规模达1,460,042词,每篇文本语料都进行了文本头标记(HEADERMARKUP),除提供各年四级口试的完整文本外,还将各年的语料按照任务类型(复述、独白和会话)分别切分,供研究使用。此外,运用CLAWS自动赋码器对全部语料进行了词性赋码。SECCL语料库具有以下特点(文秋芳、王立非、梁茂成2005:2):第一,口语语料来源于随机样本,具有广泛性和代表性;第二,口语语料按照7年的时间跨度分年存放,为研究者考察我国学生口语能力的发展提供了可能;第三,口语语料按照不同类型的任务加以分类,为考察任务类型变量对口语产出的影响提供了可能。第四,运用语法自动标注器CLAWS对所有的文本进行了语法标注和赋码,便于研究中国学生口语中的词法和句法的变化规律;第五,所有的文本语料都有相对应的语音文件,计算机可以直接读取和播放。研究者既可以做基于文本语料的口语研究,也可以对语音文件进行标注,开展基于语音语料的相关研究。

WECCL笔语子库的设计规模与SECCL大体相等,为100万词,书面语料主要从国内9所不同层次的高校英语专业的1-4年级学生中采集,以保证所选语料具有广泛的代表性。语料内容为若干不同题目的英语作文,文体为议论文,也有少量的记叙文和说明文,长度为200-800词不等,写作条件为课堂限时和课外非限时作文二种。WECCL的最终容量为3578篇作文,共1,186,215词,其中包括3059篇议论文,529篇记叙文,90篇说明文,全部作文语料来自9所高校。此外,为了方便研究,我们还组织了一个小语料库,可用于研究书面语的发展情况,这个小语料库按不同水平划分,共有489篇1-4年级的作文语料,其中,议论文278篇,记叙文121篇,说明文90篇,全部语料都进行了文本头标记,并运用CLAWS自动赋码器对全部语料进行了词性标注,经检查,赋码正确率为95.5%。

WECCL设计时考虑不同年级和水平、不同层次的院校和不同的写作时间。在具体采集数据时,考虑到各种复杂因素可能会对数据的采集和以后的研究造成的影响,对影响产出的一系列变量进行了一定的控制,主要控制变量包括:①写作时间;②写作条件;③写作文体;④写作长度;⑤写作水平;⑥写作题目;⑦学生类型等。

在写作时间上,作文分为限时和非限时两种,限时作文时间为40分钟;在写作条件上,限时作文当堂写作,当堂交卷,非限时写作课外写作,时间不限;在写作文体上,限时与非限时作文均为议论文;在写作长度上,要求不少于300词;在写作水平上,不同层次的院校中的1-4年级的学生均参与,以采集不同

·22·

王立非,等:国内外英语学习者语料库的发展:现状与方法

语言水平的学生的写作数据;在写作题目上,作文均为指定命题作文,相同学校的同年级学生所写的作文题目相同,不同院校的作文题目不同,这样,既有话题广泛性,也有话题的统一性;在学生类型方面,提供语料的学生均为英语专业的学生,可以集中反映某个群体的中介语发展特点。

WECCL语料库在设计时着重考虑了为中介语研究提供多纬度的视角,因此,具备以下三个特点(文秋芳、王立非、梁茂成2005:2):第一,作文分为限时和非限时作文,为考察时间变量对二语写作的影响提供方便;第二,作文分不同文体和年级,可以考察学生写作能力和中介语的发展情况;第三,所有的书面语料进行了词性赋码,便于研究者研究中国学生的中介语词法和句法发展的特点。

宽了二语习得实证研究的方法视野。二语习得研究一般以两种方法开展(王立非2005:5),一种是以假设为基础,另一种是以发现假设为目的。研究者如果采用第一种传统的方法,就根据文献报告的研究成果,提出假设,运用学习者的数据验证假设。这种方法的好处是研究重点明确,有助于对得出的结果进行解释;不足之处是研究的范围受到研究问题的局限。如果采用第二种方法,就要收集课堂教学的相关数据,加以仔细量化,寻找规律,这种方法适用于基于学习者语料库的二语习得研究。在学习者语料库基础上发展起来的中介语对比分析(Cont-rastiveInterlanguageAnalysis)方法为二语习得研究提供了从多维度研究中介语的途径(文秋芳、王立非、梁茂成2005:4):①本族语语料与非本族语语料进行比较;②多个不同非本族语语料之间进行比较;③同一非本族语语料中不同水平之间进行比较;④口语语料与笔语语料之间进行比较。笔者预测,基于学习者语料库的研究将越来越多。

当然,在学习者语料库研究上,对计算机定量统计方法的局限性应该有一个正确的认识:第一,学习者语料库只能提供静态的书面或口语数据,无法提供动态和学习过程的有关信息;第二,学习者语料库只能研究产出性技能,而对听和读等接受性技巧就无能为力;第三,学习策略、学习动机等学习者的个体差异也是从学习者语料库研究中得不到的。因此,在二语习得研究中,必须提倡将这两部分研究(产出语言、产出技能、总体模式、语言使用和学习过程、接受技巧、个体差异、语言知识)结合起来。

3 基于学习者语料库的二语习得研究的理论与方法

3.1 研究理据

在理论上,以言语为研究对象的理论视角标志着从研究语言向研究言语的转变。Ellis(1994:670)认为,二语习得的数据主要可分为三类:①语言使用数据,反映出学习者在理解和表达时的二语使用;②元语言判断数据(metalingualjudgements),反映出学习者对二语的直觉判断,例如,判断句子的语法性(grammaticality);③自我报告数据,通过问卷或有声思维方法研究学习者的策略。当前,二语习得研究主要基于“内省式数据”(introspectivedata)和诱导出的语言使用数据,也就是Ellis所区分的第2和第3种。一些研究者不愿意研究自然语言使用,他们的理由是:第一,在样本较少时,某些语言特征的出现频率很低,甚至根本就不出现,除非经过专门诱导;第二,由于影响语言使用的变量没有得到控制,因此,就无法对变量进行系统的研究;第三,语言使用数据无法反映出学习者语言的全部特征,因为学习者总是通过“迂回”或其他手段回避困难。但主张研究学习者语言使用的学者认为(Granger2002:87):内省与诱导数据存在局限性,诱导出来的数据的信度令人置疑,人为的实验环境下诱导出来的数据与学习者使用的语言具有很大差异。此外,由于实验条件所限,数据采集只能在很小的范围内进行,得出的结论不具有普遍性。而学习者语料库正好弥补了这种不足,当今的大型学习者语料库由于容量大,设计严密,因此,可以对影响学习者产出的因素做全面系统的研究,如通过对比学习者和母语使用者的词汇、结构的出现频率,观察回避现象等等。基于学习者语料库的二语习得研究具有几个明显的特点(王立非2005:2):第一,使用语言统计的分析技术,不依赖于绝对的逻辑规则;第二,将重点放在大量的中介语真实材料上,而不是仅仅依靠零星的例证;第三,可以深入和真实地描写中介语的微观层面,为抽象的定量统计分析和精细的个案文本分析之间架起一座桥梁;第四,大量的中介语语料可以长期保存、复制、检索,为验证性研究提供了可能。3.2 研究方法

在方法论上,以概率和频率为基础的二语习得研究,为我们的外语教学研究提供了一种新的哲学思维方式,从根本上拓

4 结语

因此,笔者建议,今后在运用学习者语料库开展二语习得研究时,对语料库的设计必须考虑学习者语言和学习者两方面的因素:第一,学习者语言方面包括媒介、风格、话题、技术性、任务场景等;学习者个体差异方面包括年龄、性别、母语、地区、其他外语、外语水平、学习环境、实际经验等;第二,可以考虑建立跟踪语料,以描述中介语的发展全过程。最终目标,是我国的各类各层次的学习者语料库汇合在一起,形成完整的语料系统,反映出中国英语学习者的二语发展的总体特征和全貌。◆

参考文献

[1] Ellis,R.StudiesofSecondLanguageAcquisition[M].Ox-ford:OxfordUniversityPress,1994.

[2] Granger,Sylviane(ed).LearnerEnglishonComputer[C].

London:AddisonWesleyLongmanLimited,1998.

[3] Granger,S.,Huang,J.&Petch-Tyson,S.,(eds).

ComputerLearnerCorpora,SecondLanguageAcquisitionandForeignLanguageTeaching[C].LanguageLearningandLanguageTeaching6.Benjamins,Amsterdam&Phila-delphia,2002.

[4] Leech,Geoffrey.Preface[A].InS.Granger(ed),xiv-xx,1998.

·23·

王立非,等:国内外英语学习者语料库的发展:现状与方法

[5] 桂诗春,杨惠中.中国学习者英语语料库[M].上海外语

教育出版社,2003.

[6] 王立非.中国学生英语口笔语语料库的建设与研究[R].

南京大学中国语言文学博士后流动站研究报告,2005.[7] 文秋芳,王立非,梁茂成.中国学生英语口笔语语料库

[M].外语教学与研究出版社(出版中),2005.

CurrentDevelopmentsinLearnerEnglishCorpusinandoutsideChina

WANGLi-fei,SUNXiao-kun

(1.BeijingUniversityofInternationalBusinessandEconomics,Beijing100029,China;1.2.NanjingInternationalStudiesUniversity,Nanjing,Jiangsu210039,China)

Abstract:ThispapergivesanoverviewofthecurrentdevelopmentsinlearnerEnglishcorporainandoutsideChi-na.Italsodiscussesthetheoryandapproachofcorpus-basedSLAstudies,anewperspectiveinsecondlanguageac-quisitionresearch.

Keywords:LearnerCorpus;SLAResearch;CurrentDevelopments

1

《外语电化教学》征订、征稿启事

  《外语电化教学》创刊于1979年,1981年公开发行,由教育部主管,上海外国语大学主办,是中国迄今为止唯一一份关于外语教育技术和外语教学法研究的专业学术期刊,是教育类/外语类核心期刊和教育部认定的社会科学引文索引(CSSCI)来源期刊。本刊为双月刊,国际标准大十六开本,彩印,每期80页。

欢迎订阅

本刊主要面向高校外语教学研究人员、大学生、研究生及中学电教室研究人员。发行范围包括各大、中、小学图书馆、资料室、电教室、外语专业教研室等。本刊国内统一刊号CN31-1036/G4

国际标准刊号ISSN1001-5795

邮发代号4-378,每期定价8元,全年48元。也可到本刊编辑部直接订阅,联系电话:021-65611164,电邮:[email protected]

地址:上海市大连西路550号366信箱外语电化教学编辑部,邮编200083欢迎投稿

本刊常设栏目有:语言研究新视野、语言技术研究、网络外语教育研究、外语视听说教学研究、现代外语教学研究、语料库教学与研究、英语测试学研究、外语教学与网站建设、网络教学课堂案例精选、新书评介、国外研究动态等等。

投稿说明

来稿格式及注意事项:·24·

A.本刊主要接受邮寄打印稿,以E-mailword文档为备用。

B.打印稿请用A4纸,小4号、宋体,1.5倍行距。C.字数一般在4~6千左右。

D.来稿须附:标题(副标题)、作者姓名、详细通讯单位地址、摘要、关键词、以及所有上述内容的英文翻译。

E.来稿同时需附作者简介:格式如下:张 (1964-)男,教授,(博士/硕士)。研究方向:语言学与应用语言学。F.来稿最好同时另附作者简便联系方式:电话、手机、email。

G.限于人力,来稿不退,亦不接受电话查询。四个月后未见用稿通知者及可视为自动退稿。

版权说明:

凡至本刊投稿文章,一经录用发表,版权即为本刊所有。若有异议,请在来稿时注明,否则即被视为自动认可本声明。

来稿请寄:

地址:上海市大连西路上海外国语大学366信箱《外语电化教学》编辑部收

邮编:200083

电邮:[email protected]

《外语电化教学》编辑部

第105期2005年10月

外语电化教学

CAFLE

No.105

Oct. 2005

语言技术研究

国内外英语学习者语料库的发展:

现状与方法

王立非,孙晓坤

1

2

(1.对外经济贸易大学,北京 100029;1.2.南京国际关系学院,江苏南京 210039)摘 要:本文对国内外英语学习者语料库的发展现状作出评述,讨论了近年来兴起的第二语言习得研究的新分支———基于学习者语料库的第二语言习得研究的理论与方法。

关键词:学习者语料库;第二语言习得研究;现状中图分类号:H319.9

文献标识码:A

文章编号:1001-5795(2005)05-0019-0006

料是由各种不同母语背景的大学三、四年级高级学习者的作文输入计算机组成,国际上众多大学参与了ICLE的建设。目前,ICLE中的文本是由14种不同母语背景的英语学习者撰写的。这些学习者来自法国、德国、荷兰、西班牙、瑞士、芬兰、波兰、捷克、保加利亚、俄罗斯、意大利、希伯来、日本和中国。ICLE按照不同母语把学习者的文本分成14个子库,并且还在增加新的子库,如葡萄牙语、卢森堡语、挪威语和南非语。ICLE中既有定时作文,也有不定时作文,每篇长度在500至1000词之间;既有考试试卷,也有自由完成的作文;既有参考工具书完成的,也有不用的。尽管题目各异,但全是非科技类文章和议论文,库中

表1 国外主要英语学习者书面语语料库

名称ICLEJEFLLJPUMELDPELCRAUSELLCCLC

书面语、商业性书面语、语料类型

建设国比利时Louvain大学日本Meikai大学匈牙利Pecs大学

母语背景容量(万词)多种母语日语匈牙利语

[**************]00>[1**********]

  学习者语料库与一般语料库不同,它是指经过计算机处理的外语学习者的语言产出的文本数据库(Leech1998:3),属于学习者中介语范畴。大型的学习者语料库经过词性赋码、错误赋码、语义赋码或句法标注就能使我们从中发现中介语发展的重要规律和特点。本文将对国内外学习者语料库的发展现状和基于学习者语料库的第二语言习得研究方法作一个评述。

1 国外学习者语料库发展的现状

目前国际上对学习者语料库的研究大体上分为三个方面:①学习者语料库的建设与开发,主要是语料库的设计和与学习者语料库的建设相关的软件开发,由语言学和软件两个专业的人员合作完成。②基于学习者语料的二语习得研究,包括语音、语法、词汇和语篇的各个方面。③学习者语料研究在语言教学中的应用,利用学习者语料的数据编写词典、语法书、选择课文材料和开发自学的电子产品。目前,在语料库建设方面,据不完全统计,已经建成和在建的学习者英语书面语语料库8个,口语库2个。

1.1 书面语语料库

就书面语语料库而言,其中2个为商业性语料库,主要用于出版社的学习辞书和教材编写,其余6个为研究性语料库,用于研究第二语言学习者的中介语发展。

(1)国际英语学习者语料库———ICLE

ICLE(InternationalCorpusofLearnerEnglish)是最重要的学习者语料库之一,容量为200万词,1990年启动,项目负责人为比利时Louvain-La-Neuve大学的SylvianeGranger教授。语

研究性美国Montclair州立大学多种母语

波兰Lodz大学瑞典Uppsala大学英国朗文出版公司英国剑桥大学出版社比利时Louvain大学日本Meikai大学等

波兰语瑞典语多种母语多种母语多种母语日语

LINSEI口语、SSTC

研究性

作者简介:王立非(1962-)男,博士,教授,博士生导师。研究方向:应用语言学,二语习得,语料库语言学。

孙晓坤(1977-)女,博士生。研究方向:应用语言学,二语习得。

收稿日期:2005-03-02

·19·

王立非,等:国内外英语学习者语料库的发展:现状与方法

还包含一小部分文学考试试卷。荷兰大学TOSCA语料库语言学研究小组开发的TOSCA-ICLE赋码软件对ICLE进行赋码和句法切分。赋码系统包括17种主要的词类,共有220个不同的编码符,代表其中的子类和语义、句法和词形信息,软件系统现可在MS-DOS环境下运行。这个语料库的错误赋码通过一套错误赋码系统完成,该系统由Louvain-la-Neuve大学开发,名叫错误编辑器(ErrorEditor),能对每个错误进行赋码。错误编辑器的赋码系统为阶梯式,由一套主码和一套辅码分类组成,其中主码分为7类,即形式、语法、词汇语法、词汇、语域、词语冗长/词语丢失、词序和文体,然后还有一些辅码,一旦错误赋码完成,就可以根据错误码检索文本进行分析。目前,经过TOSCA软件词性赋码和错误编辑器错误标注的语料没有对外开放,公开发行的光盘版的语料生语料,在网站上可以购买,网址为http://www.fltr.ucl.ac.be/fltr/germ/etan/cecl/Cecl-Pro-jects/Icle/icle.htm,也可与项目负责人直接联系([email protected])获得语料。

(2)匈牙利英语学习者语料库———JPU

JPU是JozsefHorvath创立的,也是首个西班牙英语学习者的大型语料库。这个语料库包含了1992-1998年间大学高年级外语学习者写的作文语料,共分为5个子库:英语子库、选修课作业子库、语言练习子库、研究生论文子库和写作技巧研究子库。JPU中两类主要文本为作文和研究论文。作文为非文学专业的大学生写的作文,包括个人自传、记叙文和描写文,但没有明确说明是否为非定时写作。JPU的文本进行了半标注,学习者的背景信息和其他信息如课程、学年和体裁是标注的,但词性和语法没有赋码,因此,语料库不能提供相关信息。JPU语料库的建立为语言学研究和语言教育研究提供了理想的材料,研究者可以根据不同的目的对学生的文本进行分析,如对学生的表现进行记录,使历时研究成为可能,研究者可以对比5个子语料库,或者比较JPU与母语的差异。JPU的部分语料可在网站http://www.geocities.com/jpu corpus上检索,特别是其中的研究生子库中女生的作文从2001年10月起可以上网查到,其他的一些子库在网站上也有列表。

(3)波兰英语学习者语料库———PELCRA

PELCRA项目是波兰Lodz大学英语系和英国兰卡斯特大学语言学和英语系的一个合作项目,创建于1997年,主要收集波兰英语学习者的各种语料,包括由不同水平的学习者提供的书面材料,从初级学习者到高级学习者。PELCRA中的语料为定时作文,大部分文章是议论文,也有一些记叙文和描写文,每篇长度在300至1000词之间。语料收集的时间为1998-2000年间Lodz英语学院及其附属师范学院的考试语料,学生的英语水平高低不等。语料为学生逐年上交的学年考试作文,因此,每个学生都有3篇作文,为了消除不同水平因素的影响,文章按1-4年级编排。目前的语料全部来自考试,今后的语料收集范围将扩大到考试以外。PELCRA中的部分语料依靠人工进行词性赋码。目前,PELCRA正在制定赋码规则。这个语料库可用于对比研究波兰语和英语在语序上的不同,如:比较前修

饰和后修饰的问题;定冠词和限定语的问题;介词和搭配问题;词汇替代问题以及回避错误问题,该语料库还没有完全建成,如果感兴趣,可以访问以下网址http://www.uni.lodz.pl/pel-cra/samples.htm。

(4)瑞典英语学习者语料库———USE

USE是瑞典Uppsala大学建立的学习者语料库,语料来自瑞典大学高级英语学习者的书面文本语料。1998年开始项目试点,1999年正式启动。USE中的任务环境为非定时作文,体裁多是议论文和叙述文,每篇长度在800至1000词之间,上下浮动200个词。另外,文学和文化课的作业也包括其中。目前,USE的部分语料进行了词性赋码,使用的软件工具为Brilltagger,这个自动赋码器以转化规则为基础而不是根据概率方法设计的。对赋码样本标注后还要进行人工校对,所以准确性很高。但USE中没有常规的错误赋码,如果资金足够,USE也会进行错误赋码。建库的目的是为语言研究和教学提供语料,在一定程度上也用作课程评估,此外,也作为诊断工具,了解不同水平的大学生存在的外语学习困难。目前,USE还在建设之中,具体可以访问http://www.engelska.uu.se/use.html。

(5)日本英语学习者语料库———JEFLL

JEFLL是由日本明海大学于1996年建立的,项目主持人为YukioTono教授。这个语料库的容量为50万词,语料包括定时作文、在20分钟内不用字典写的自由作文,体裁都为描写文和议论文,由于水平不等,每篇长度20至150词不等。JEFLL进行了多种赋码,包括词性赋码、错误赋码、语义赋码和句法分析。用词性赋码采用了CLAWS自动标注器,语义赋码采用了SEMTAG,句法标注用TheApplePieParser,错误赋码依靠人工,还使用了TagEditor和ErrorEditor等工具。这些工具都是专门开发的。JEFLL的特点是语料包括初中、高中和大学生的样本,不局限在一个水平层次上,可以进行语言的发展性研究,比如说对某个词汇、语法或语义特征进行发展性分析研究。当前,JEFLL没有对外开放,但计划在两年内在网上公开发行(ht-tp://leo.meikai.ac.jp/~tono/index.html),既可以做研究用,也可以做商业用途。

(6)美国的英语学习者语料库———MELD

MELD语料库是由美国蒙特克莱尔州立大学的EileenFitz-patrick和MiltonS.Seegmiller联合创建的,语料库的容量较小,约为5万词,语料来自不同母语的高级学习者的英语作文,MELD中作者的个人信息通过学习者问卷收集,包括年龄、性别和语言教育程度。语料为不定时作文,作文每篇平均500个词,库中的文体类型包括议论、因果、比较和对比等。另外还收集了50,000个词语,但还没有经过加工。MELD中不仅有词性赋码,还有错误标注,词性赋码用自动赋码器完成,错误标注依靠人工完成。该语料库的主要目的是为第二语言习得研究提供数据库。通过对语料库中的词性信息和错误进行分类和标注,可以很容易地检索到用法信息。有关该语料库的介绍可以登录以下网址查询:http://www.chss.montclair.edu/chss/lin-guistics/MELD/index.html。

·20·

王立非,等:国内外英语学习者语料库的发展:现状与方法

(7)英国的商业性学习者语料库———CLC和LLC剑桥学习者语料库(CLC)和朗文学习者语料库(LLC)是两个商业性的学习者语料库。商业性语料库和其他语料库的区别,在于建库是为了帮助出版社编辑外语学习词典和外语教材和教辅。尽管传统上词典出版商一般都使用本族语语料作为参考,但近年来,出现了通过建立学习者语料库,分析学习者错误为词典编撰提供依据的新趋势。CLC的的容量很大,收集了全世界不同母语的学习者参加剑桥大学作文考试的语料,文本都是限时作文,时间为1~1.5小时完成。CLC中的文本从Up-perMainSuiteExaminations中选取,背景信息非常全面,考生都填写了考生信息表,包括考试得分和试卷内容。CLC中的所有语料都是匿名的,其中四分之一的语料进行了错误赋码,方便词典编撰者检索学习者使用的例证,如,查找学习者用得好的单词、句式和语法结构,或者利用语料库发现学习者的学习难点。另外,CLC还应用于书面作文的机器阅卷和评分的软件开发。

像CLC一样,《朗文学习者语料库》的容量为几亿词,提供有关单词、用法、语言变化和英语语法句型的深层知识。LLC由世界各国的教师和学生发送来的作文和考试试卷组成,水平层次各异,作文和考试语料既有限时,也有非限时的,每篇作文都标记了作者的国籍、水平、文本类型(作文、书信、考试)、目标语类型(英国英语或美国英语)和居住国信息。LLC没有进行词性赋码,但为《朗文词典》提供参考的那部分进行了错误赋码。有关信息读者可以登陆网站http://www.longman.com/dictionaries/corpus/lccont.html查询。1.2 口语语料库

国外学习者口语语料库的发展与书面语相比不仅容量小而且速度较慢,目前已建成或在建的语料库只有2个。

(1)《LINSEI国际英语中介语口语语料库》(LINSEISpo-kenCorpus)

LINSEI语料库于1995年开始建设,由比利时Louvain大学的S.Granger教授负责([email protected])。该语料库包含多个子库,已建成的一个子库由50段访谈语料转写成的10万词的文本组成,采访对象为法语为母语的英语学习者,其中30位男性,20位女性。目前,正在建立多国英语学习者的若干个中介语子库,包括日本英语学习者、瑞典英语学习者、西班牙英语学习者、意大利英语学习者、保加利亚英语学习者和中国英语学习者等。此外,为了进行对比研究,还建立了英语为母语的平行口语语料库,以研究不同母语背景的英语学习者的中介语变化。目前,语料库建设者希望与世界各国的研究者合作,不断扩大各语种的英语学习者的口语语料。

(2)《日本标准化英语口试语料库》(TheStandardSpeakingTestCorpusofJapaneseEFLLearners)

SSTC语料库为英语口语考试语料库,项目于1999年开始启动,由日本明海大学、Showa女子大学、京都通讯研究实验室、理光软件研究中心、ALC出版社等多所大学和科研机构组成项目组,语料库设计规模为100万词,项目主持人为明海大学的

(1)香港高中生英语语料库———HKUST

HKUST的项目主持人为香港科技大学的约翰·弥尔顿教授([email protected]),语料库容量为2500万词,收集了香港高中生的英语考试作文语料,全部语料均为限时,每篇大约1000词。此外,还有一部分的语料是课外的作业。2001年,研究人员对语料库中百分之一的语料进行了随机人工错误标注和词性赋码,重点围绕以下几方面开展研究:错误频率能否代表学生的实际学习困难?写作环境如何影响学习者的写作水平?错误率是否可以预测?目前已经取得了一些成果。HKUST的错误标注系统和规则(包括错误和非错误范畴)由设计者自行研发,并用人工检验错误标注的准确率。错误标注为文本格式,通过检索错误标注,就可以将错误分类,然后生成错误类型总表。此外,研究者使用了CLAWS词性赋码器,大大提高了赋码速度和一致性。这个语料库可供研究者对比学生限时和课外写作的差异,为分析中国英语学习者的中介语发展提供了数据,同时,也对大纲设计和教材编写极有价值。

(2)香港初中生教学语料库———TSLC

TSLC是香港建立的另一个大型语料库,该项目由香港政府资助,香港大学教育学院主持,于1994年开始建设,其中的学习者语料主要来自香港中学生的(母语是广东话)英语作文文本,文本既有限时的考试作文,也有课外不限时的作文,每篇长度为300-500词之间。同时,还包括个人书信、正式商业信

名称HKUSTTSLCCLECCOLSEC

类型书面语书面语书面语口语

建设单位香港科技大学香港大学广东外语外贸大学等上海交通大学等华南师范大学南京大学

母语背景容量(万词)广东话广东话汉语汉语汉语汉语

>[1**********]087.6>200

TONO教授,全部语料来源为日本标准化分级英语口语水平考试(ACTFL-ALC)的录音,口试的级别从低到高为1-9级,日本的英语学习者均可以参加口试,取得相应的级别证书。2000年,语料库的建设已完成了转写方案的编制、标注方案的编写、标注编辑软件的设计。2001年,完成了口语错误标注方案、错误标注的支持软件研发。2003年,语料库项目结项,公开出版,需要者可以联系购买,联系方式为[email protected]

2 国内英语学习者语料库的发展

我国的学习者语料库建设与研究开始于上个世纪90年代中期,近年来发展迅速,已处于国际领先水平。到2004年为止,已经建成或在建的语料库有6个,其中,香港2个,内地4个。

表2 我国主要的英语学习者语料库

MSEE书面语/口语SWECCL书面语/口语

·21·

王立非,等:国内外英语学习者语料库的发展:现状与方法

函、给编辑的信件、报纸或杂志社论、专门报道、演讲、口头报告和自由作文。这些文章的体裁有记叙文、复述、描写、说明文和议论文,都没有进行任何赋码。这个语料库可以和其他当代英语语料库进行对比分析,也可以对香港中学生写作进行调查分析,发现其中不正确用法的信息,比如过量使用,不少使用以及词汇、搭配或句法错误以及正确的用法。除书面语料库之外,还有教育资源数据库TeleNex,TeleNex由TeleGram和TeleTeach两个超文本数据库组成,包括几个分主题的讨论角。香港的中学教师可以免费上网进入。TeleGram主要提供有关英语语法和用法的信息,而TeleTeach则为教师提供课堂所需要的教学材料。该数据库的网址为http://www.TeleNex.hku.hk。

(3)中国英语学习者语料库———CLEC

《中国学习者英语语料库》(简称CLEC)是国家社科基金“九五”规划项目,语料库光盘版2003年已由上海外语教育出版社出版(桂诗春、杨惠中,2003)。该语料库收集了我国中学生、大学英语4、6级、英语专业低年级和高年级学生在内的100多万词的书面英语语料库,并用人工对所有的语料进行语法标注和言语失误标注,是一部含有言语失误标注的英语学习者语料库。

(4)《中国大学生英语口语语料库》———COLSEC这个语料库是国家社科基金“九五”规划项目———《中国学习者英语语料库》(简称CLEC《语料库》)的后续项目,口语语料库由上海交通大学2002年开始主持建设,设计规模为50万词。目前,上海交通大学、洛阳外国语学院、河南师范大学等高等院校的教师和研究人员参加,主要语料来源为全国大学英语四级口试的录音,将参加面试的大学生的口语语料转写成电子文本,再进行语音和错误标注。目前,转写工作即将完成,标注工作已全面展开,预计将于2005年底出版。

(5)中学生英语语料库———MSEE

MSEE是1998年广东省高等学校电化教育"五个一百工程"的立项课题之一。《中学生书面语语料库》(MSSW)是《中学英语教育语料库》(MSEE)的一个子库,由华南师大外语系负责建设。《中学生英语书面语,口头语语料库(MSSW,MSSS)》的总容量为87.6万词,其中MSSW约为40万词,收集了1997年全国英语高考广东省21市区1200名考生的英语作文和1998年全国英语高考广东省21市区2000名考生的英语作文。该语料库为研究我国中学生的英语书面语发展提供了极为宝贵的数据库,也为教学和教师提供了有用的反馈。

(6)中国英语学生口笔语语料库———SWECCL

《中国英语学生口笔语语料库》(以下简称SWECCL)由国家211工程二期子项目“中国学生英语口语语料库”(SpokenEnglishCorpusofChineseLearners,以下简称SECCL)和教育部人文社科项目“中国大学生英语写作能力发展规律与特点”的数据库“中国学生英语笔语语料库”(WrittenEnglishCorpusofChineseLearners,以下简称WECCL)二个子项目组成,语料库的设计总规模为200万词,其中SECCL口语子库为100万词,WECCL子库为100万词,项目由南京大学主持,外语教学与研

究出版社合作共同开发,笔者作为项目负责人之一,参加了建设全过程,全国共有11所大学的师生参加了建库各阶段的工作。

SECCL口语子库主要依托南京大学英语口语测试中心主持的全国英语专业四级口语考试,语料来源为我国英语专业大学生历年参加四级英语口试的磁带录音语料。口试语料已收集从1996-2002年共7年的英语专业四级口试录音的数码语音样本1148个,以及这些语音样本的电子转写文本1148个,总规模达1,460,042词,每篇文本语料都进行了文本头标记(HEADERMARKUP),除提供各年四级口试的完整文本外,还将各年的语料按照任务类型(复述、独白和会话)分别切分,供研究使用。此外,运用CLAWS自动赋码器对全部语料进行了词性赋码。SECCL语料库具有以下特点(文秋芳、王立非、梁茂成2005:2):第一,口语语料来源于随机样本,具有广泛性和代表性;第二,口语语料按照7年的时间跨度分年存放,为研究者考察我国学生口语能力的发展提供了可能;第三,口语语料按照不同类型的任务加以分类,为考察任务类型变量对口语产出的影响提供了可能。第四,运用语法自动标注器CLAWS对所有的文本进行了语法标注和赋码,便于研究中国学生口语中的词法和句法的变化规律;第五,所有的文本语料都有相对应的语音文件,计算机可以直接读取和播放。研究者既可以做基于文本语料的口语研究,也可以对语音文件进行标注,开展基于语音语料的相关研究。

WECCL笔语子库的设计规模与SECCL大体相等,为100万词,书面语料主要从国内9所不同层次的高校英语专业的1-4年级学生中采集,以保证所选语料具有广泛的代表性。语料内容为若干不同题目的英语作文,文体为议论文,也有少量的记叙文和说明文,长度为200-800词不等,写作条件为课堂限时和课外非限时作文二种。WECCL的最终容量为3578篇作文,共1,186,215词,其中包括3059篇议论文,529篇记叙文,90篇说明文,全部作文语料来自9所高校。此外,为了方便研究,我们还组织了一个小语料库,可用于研究书面语的发展情况,这个小语料库按不同水平划分,共有489篇1-4年级的作文语料,其中,议论文278篇,记叙文121篇,说明文90篇,全部语料都进行了文本头标记,并运用CLAWS自动赋码器对全部语料进行了词性标注,经检查,赋码正确率为95.5%。

WECCL设计时考虑不同年级和水平、不同层次的院校和不同的写作时间。在具体采集数据时,考虑到各种复杂因素可能会对数据的采集和以后的研究造成的影响,对影响产出的一系列变量进行了一定的控制,主要控制变量包括:①写作时间;②写作条件;③写作文体;④写作长度;⑤写作水平;⑥写作题目;⑦学生类型等。

在写作时间上,作文分为限时和非限时两种,限时作文时间为40分钟;在写作条件上,限时作文当堂写作,当堂交卷,非限时写作课外写作,时间不限;在写作文体上,限时与非限时作文均为议论文;在写作长度上,要求不少于300词;在写作水平上,不同层次的院校中的1-4年级的学生均参与,以采集不同

·22·

王立非,等:国内外英语学习者语料库的发展:现状与方法

语言水平的学生的写作数据;在写作题目上,作文均为指定命题作文,相同学校的同年级学生所写的作文题目相同,不同院校的作文题目不同,这样,既有话题广泛性,也有话题的统一性;在学生类型方面,提供语料的学生均为英语专业的学生,可以集中反映某个群体的中介语发展特点。

WECCL语料库在设计时着重考虑了为中介语研究提供多纬度的视角,因此,具备以下三个特点(文秋芳、王立非、梁茂成2005:2):第一,作文分为限时和非限时作文,为考察时间变量对二语写作的影响提供方便;第二,作文分不同文体和年级,可以考察学生写作能力和中介语的发展情况;第三,所有的书面语料进行了词性赋码,便于研究者研究中国学生的中介语词法和句法发展的特点。

宽了二语习得实证研究的方法视野。二语习得研究一般以两种方法开展(王立非2005:5),一种是以假设为基础,另一种是以发现假设为目的。研究者如果采用第一种传统的方法,就根据文献报告的研究成果,提出假设,运用学习者的数据验证假设。这种方法的好处是研究重点明确,有助于对得出的结果进行解释;不足之处是研究的范围受到研究问题的局限。如果采用第二种方法,就要收集课堂教学的相关数据,加以仔细量化,寻找规律,这种方法适用于基于学习者语料库的二语习得研究。在学习者语料库基础上发展起来的中介语对比分析(Cont-rastiveInterlanguageAnalysis)方法为二语习得研究提供了从多维度研究中介语的途径(文秋芳、王立非、梁茂成2005:4):①本族语语料与非本族语语料进行比较;②多个不同非本族语语料之间进行比较;③同一非本族语语料中不同水平之间进行比较;④口语语料与笔语语料之间进行比较。笔者预测,基于学习者语料库的研究将越来越多。

当然,在学习者语料库研究上,对计算机定量统计方法的局限性应该有一个正确的认识:第一,学习者语料库只能提供静态的书面或口语数据,无法提供动态和学习过程的有关信息;第二,学习者语料库只能研究产出性技能,而对听和读等接受性技巧就无能为力;第三,学习策略、学习动机等学习者的个体差异也是从学习者语料库研究中得不到的。因此,在二语习得研究中,必须提倡将这两部分研究(产出语言、产出技能、总体模式、语言使用和学习过程、接受技巧、个体差异、语言知识)结合起来。

3 基于学习者语料库的二语习得研究的理论与方法

3.1 研究理据

在理论上,以言语为研究对象的理论视角标志着从研究语言向研究言语的转变。Ellis(1994:670)认为,二语习得的数据主要可分为三类:①语言使用数据,反映出学习者在理解和表达时的二语使用;②元语言判断数据(metalingualjudgements),反映出学习者对二语的直觉判断,例如,判断句子的语法性(grammaticality);③自我报告数据,通过问卷或有声思维方法研究学习者的策略。当前,二语习得研究主要基于“内省式数据”(introspectivedata)和诱导出的语言使用数据,也就是Ellis所区分的第2和第3种。一些研究者不愿意研究自然语言使用,他们的理由是:第一,在样本较少时,某些语言特征的出现频率很低,甚至根本就不出现,除非经过专门诱导;第二,由于影响语言使用的变量没有得到控制,因此,就无法对变量进行系统的研究;第三,语言使用数据无法反映出学习者语言的全部特征,因为学习者总是通过“迂回”或其他手段回避困难。但主张研究学习者语言使用的学者认为(Granger2002:87):内省与诱导数据存在局限性,诱导出来的数据的信度令人置疑,人为的实验环境下诱导出来的数据与学习者使用的语言具有很大差异。此外,由于实验条件所限,数据采集只能在很小的范围内进行,得出的结论不具有普遍性。而学习者语料库正好弥补了这种不足,当今的大型学习者语料库由于容量大,设计严密,因此,可以对影响学习者产出的因素做全面系统的研究,如通过对比学习者和母语使用者的词汇、结构的出现频率,观察回避现象等等。基于学习者语料库的二语习得研究具有几个明显的特点(王立非2005:2):第一,使用语言统计的分析技术,不依赖于绝对的逻辑规则;第二,将重点放在大量的中介语真实材料上,而不是仅仅依靠零星的例证;第三,可以深入和真实地描写中介语的微观层面,为抽象的定量统计分析和精细的个案文本分析之间架起一座桥梁;第四,大量的中介语语料可以长期保存、复制、检索,为验证性研究提供了可能。3.2 研究方法

在方法论上,以概率和频率为基础的二语习得研究,为我们的外语教学研究提供了一种新的哲学思维方式,从根本上拓

4 结语

因此,笔者建议,今后在运用学习者语料库开展二语习得研究时,对语料库的设计必须考虑学习者语言和学习者两方面的因素:第一,学习者语言方面包括媒介、风格、话题、技术性、任务场景等;学习者个体差异方面包括年龄、性别、母语、地区、其他外语、外语水平、学习环境、实际经验等;第二,可以考虑建立跟踪语料,以描述中介语的发展全过程。最终目标,是我国的各类各层次的学习者语料库汇合在一起,形成完整的语料系统,反映出中国英语学习者的二语发展的总体特征和全貌。◆

参考文献

[1] Ellis,R.StudiesofSecondLanguageAcquisition[M].Ox-ford:OxfordUniversityPress,1994.

[2] Granger,Sylviane(ed).LearnerEnglishonComputer[C].

London:AddisonWesleyLongmanLimited,1998.

[3] Granger,S.,Huang,J.&Petch-Tyson,S.,(eds).

ComputerLearnerCorpora,SecondLanguageAcquisitionandForeignLanguageTeaching[C].LanguageLearningandLanguageTeaching6.Benjamins,Amsterdam&Phila-delphia,2002.

[4] Leech,Geoffrey.Preface[A].InS.Granger(ed),xiv-xx,1998.

·23·

王立非,等:国内外英语学习者语料库的发展:现状与方法

[5] 桂诗春,杨惠中.中国学习者英语语料库[M].上海外语

教育出版社,2003.

[6] 王立非.中国学生英语口笔语语料库的建设与研究[R].

南京大学中国语言文学博士后流动站研究报告,2005.[7] 文秋芳,王立非,梁茂成.中国学生英语口笔语语料库

[M].外语教学与研究出版社(出版中),2005.

CurrentDevelopmentsinLearnerEnglishCorpusinandoutsideChina

WANGLi-fei,SUNXiao-kun

(1.BeijingUniversityofInternationalBusinessandEconomics,Beijing100029,China;1.2.NanjingInternationalStudiesUniversity,Nanjing,Jiangsu210039,China)

Abstract:ThispapergivesanoverviewofthecurrentdevelopmentsinlearnerEnglishcorporainandoutsideChi-na.Italsodiscussesthetheoryandapproachofcorpus-basedSLAstudies,anewperspectiveinsecondlanguageac-quisitionresearch.

Keywords:LearnerCorpus;SLAResearch;CurrentDevelopments

1

《外语电化教学》征订、征稿启事

  《外语电化教学》创刊于1979年,1981年公开发行,由教育部主管,上海外国语大学主办,是中国迄今为止唯一一份关于外语教育技术和外语教学法研究的专业学术期刊,是教育类/外语类核心期刊和教育部认定的社会科学引文索引(CSSCI)来源期刊。本刊为双月刊,国际标准大十六开本,彩印,每期80页。

欢迎订阅

本刊主要面向高校外语教学研究人员、大学生、研究生及中学电教室研究人员。发行范围包括各大、中、小学图书馆、资料室、电教室、外语专业教研室等。本刊国内统一刊号CN31-1036/G4

国际标准刊号ISSN1001-5795

邮发代号4-378,每期定价8元,全年48元。也可到本刊编辑部直接订阅,联系电话:021-65611164,电邮:[email protected]

地址:上海市大连西路550号366信箱外语电化教学编辑部,邮编200083欢迎投稿

本刊常设栏目有:语言研究新视野、语言技术研究、网络外语教育研究、外语视听说教学研究、现代外语教学研究、语料库教学与研究、英语测试学研究、外语教学与网站建设、网络教学课堂案例精选、新书评介、国外研究动态等等。

投稿说明

来稿格式及注意事项:·24·

A.本刊主要接受邮寄打印稿,以E-mailword文档为备用。

B.打印稿请用A4纸,小4号、宋体,1.5倍行距。C.字数一般在4~6千左右。

D.来稿须附:标题(副标题)、作者姓名、详细通讯单位地址、摘要、关键词、以及所有上述内容的英文翻译。

E.来稿同时需附作者简介:格式如下:张 (1964-)男,教授,(博士/硕士)。研究方向:语言学与应用语言学。F.来稿最好同时另附作者简便联系方式:电话、手机、email。

G.限于人力,来稿不退,亦不接受电话查询。四个月后未见用稿通知者及可视为自动退稿。

版权说明:

凡至本刊投稿文章,一经录用发表,版权即为本刊所有。若有异议,请在来稿时注明,否则即被视为自动认可本声明。

来稿请寄:

地址:上海市大连西路上海外国语大学366信箱《外语电化教学》编辑部收

邮编:200083

电邮:[email protected]

《外语电化教学》编辑部


相关文章

  • 国内科技英语翻译教学研究综述
  • 中国科技经济新闻数据库 教育 国内科技英语翻译教学研究综述 丁 惠 安徽农业大学外国语学院,安徽 合肥 230036 摘要:科技英语翻译教学是科技英语教学的一个重要分支.本文将对国内科技英语翻译教学进行历时研究,总结该领域的研究现状,分析当 ...查看


  • 邯郸市公示语汉英翻译规范化研究
  • 摘 要: 随着邯郸经济的发展,统一.规范的公示语汉英翻译在城市良好形象塑造方面的作用日益显现.通过综述公示语汉英翻译研究和实践现状,提出在翻译理论指导下,政府调动研究个人.团体与权威媒体,利用现代信息技术力量,探索公示语汉英翻译规范的新模式 ...查看


  • 第二语言词汇习得的中介语对比分析方法
  • 2013年第2期华文教学与研究总第50期No.22013TCSOL Studies Sum No.50 第二语言词汇习得的中介语对比分析方法 邢红兵1,辛鑫2 (1.北京语言大学汉语水平考试中心,北京100083:2.北京市海淀北部新区实验 ...查看


  • 关于英语作文智能评阅系统的介绍及启迪_吴方
  • [教育求索] ··总第471期 关于英语作文智能评阅系统的介绍及启迪 □吴 (南京工业大学 方 南京 210000) 外语学院,江苏 摘要:本文评述近年来国内外作文自动评分系统中的关键技术,依据其英语作文测试中的效用和其可操作性对其进行分析 ...查看


  • 第三批"中国外语教育基金项目"首批中标课题及主持人名单
  • 第三批"中国外语教育基金项目"首批中标课题及主持人名单 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 课 题 名 称 职前英语教师课堂教学的评估原 ...查看


  • 当代中国法律语言学研究说略_柯贤兵
  • 第34卷第3期20143湖北科技学院学报 Journal of Hubei University of Science and Technology Vol.34,No.3 Mar.2014 文章编号:2095-4654(2014)03-0 ...查看


  • 英语"get+过去分词"结构的非被动意义研究
  • [摘要]本研究以语料库语言学及语义学为依据,通过在British National Corpus语料库中搜索"get+过去分词"结构,并对其进行加工归纳分类,重新审视了英语中所谓的get型被动结构.并不是所有的" ...查看


  • 南沙区代理发表职称论文发表-英语教学原因论文选题题目
  • 云发表,专业论文发表网站!http://www.yunfabiao.com/ 面向作者直接收稿,省去中间环节,价格更低,发表更快,收录更快! 南沙区代理发表职称论文发表-英语教学|原因论文选题题目 南沙区代理发表职称论文发表-以下是英语教学 ...查看


  • 机器翻译方法的研究现状
  • 第33卷第2期 2004年6月内蒙古师范大学学报自然科学(汉文) 版Journal of Inner Mongolia Normal University (Natural Science Edition ) Vol. 33No. 2J u ...查看


热门内容