全国商务英语专业四级考试的测试学分析_王立非

2015年第1期NO.1 2015

广东外语外贸大学学报

JOURNAL OF GUANGDONG UNIVERSITY OF FOREIGN STUDIES

2015年1月Jan. 2015

全国商务英语专业四级考试的测试学分析

王立非 许德金 江进林

(对外经济贸易大学·北京·100029)

内容提要:本文探讨了全国商务英语专业英语四级考试能力量表的设计,以2013年的笔试数据为依据,对考试的信度和效度进行分析,并运用多面R A S C H 模型,测量了试卷各题目的难度,以检验该考试的区分度和权威性。统计结果显示,该考试具有良好的信度和效度,试题能够合理区分考生,符合测试学的要求,适用于大规模考试。本文对测试题的改进和今后如何完善该考试提出了建议。

关键词:商务英语专业;商务英语考试;四级考试;信度;效度

中图分类号:H310.4 文献标识码:A 文章编号:1672-0962(2015)01-0005-07

一、引言

商务英语专业四级考试是为了考查全国高等学校商务英语专业教学情况而设置的专业水平考试,主要测试商务英语专业本科生的英语语言水平、商务文化知识和跨文化交际能力,为考生提供科学的商务英语能力量表,同时也是各院校评估商务英语专业教学质量的依据,属于标准参照性学业考试。按照《高等学校商务英语专业考试大纲》(试行)四级考试要求,完成相应学习任务的高等学校在校大二本科生须参加本考试。高职高专商务英语专业第三学年可根据情况由学校为单位统一组织参加本考试。本文探讨了全国商务专业英语四级考试能力量表的设计,以2013年的笔试数据为依据,对考试的信度和效度进行分析,

够听懂目标语语速大约为130词/分钟,句子结构较为复杂的一般性商务话语,能基本掌握其内容及细节要点,通过分析推理,较为准确把握说话人的态度、情感及真实意图。一般性商务话语主要涉及面试、会议、谈判活动、商务讲座、演讲、旅游、基本的商务报告、产品介绍人说明、广告、投诉、纠纷等基本商务活动。阅读部分要求能以大约200词/分钟的速度读懂各类基本的商务材料,如商务信函、产品说明书、会议记录、备忘录、广告、商务单证、商务合同、商务报告等,能运用有效的阅读技巧,把握所涉商务材料的主旨,并能够在阅读中进行归纳和推理。理解准确率不低于80%。翻译部分要求能对中等难度的国际商务材料(如商务函电、商务合同、商务报告、商务标书、商业企划书)等进行英汉互译,译文基本准确流畅。英译汉的速度能达到约4个词/分钟,汉译英翻译速度则达到大约3个字/分钟。写作部分要求能起草中等难度的国际商务文稿(如电子商务报文、商务信函、商务合同、商业企划书、商务报告等),完成会议记录、商务文献摘要等写作任务,做到文章结构清晰、要点突出、内容切题、逻辑性较强。写作速度约为200词/30分钟。口语部分要求能在各类国际商务活动(如商务会谈、商务培训、商品交易会、市场调研、企业管理、会议组织、市场营销等)中较为流利和正确地运用英语有效地交谈和沟通,能较恰当地运用会话策略较系统和连贯地表达个人的观点、建议或情感,显示出较强的跨文化商务交际能力,语音语调准确自然。商务知识与技能方面要求了解国际

二、考试量表与题型的设计

本考试内容主要包括英语语言水平、商务文化知识和跨文化交际能力三个方面。英语语言水平部分重点考查国际商务一般环境中考生使用英语进行听、说、读、写、译的基本能力。商务文化知识部分主要考查考生对国际商务业务与文化方面的基本知识储备,着重考察国际贸易活动方面的基本知识。跨文化商务交际部分重点考查考生应用商务英语从事国际商务的沟通能力。

1. 考试量表设计

本考试对三部分都提出了具体的要求。听力部分要求能

收稿日期:2014-10-08 基金项目:本文为北京市社会科学基金重点项目 “商务人才外语能力的语言学理

论基础研究”(14WYA006 )的相关成果。

作者简介:王立非,男,博士,对外经济贸易大学英语学院教授、博士生导师,研究方向为应用语言学、商务

英语。许德金,男,博士,对外经济贸易大学英语学院教授,博士生导师;研究方向为跨文化、商务英语。 江进林,女,博士,对外经济贸易大学英语学院副教授,研究方向为语言测试学。

5

广东外语外贸大学学报

商务文化的基本概念、国际商务礼仪和国际商务活动中的基本规则和文化常识;了解国际商务基本概念和知识(如宏微观经济学、管理学、国际商法、国际贸易、国际金融、国际市场营销等专业),以及国际商务活动其他相关领域的基本知识。跨文化交际能力方面要求初步具备国际商务环境下的跨文化意识、跨文化商务适应能力及商务沟通能力。考试的词汇要求为:认知7000个左右的基本词汇,其中包括1000个左右的常用商务词汇;较为准确、熟练地运用3000个左右的常用词汇及其最基本的搭配。

2. 考试题型设计

本考试分为笔试与口试,使用多种题型分别进行测试,笔、口试均采用机考形式。笔试满分为100分,口试满分为50分。笔试部分包括三大模块:听力、阅读和写作、商务知识和翻译。

表1:商务英语专业四级考试题型与结构

考试形式

时间题型题数计分

选择(匹配)510填空510

听力30

简答 (1-2篇短文)315

小计1335

选择填空55商务信息解读55

10商务阅读理阅读理解10阅读与写作50

解与写作阅读写作120

小计2040

商务用语英译汉510

商务知识与

40商务短文汉译英115

翻译

小计625

合计12039100

口头问答110观点陈述120

口语12

商务沟通120

小计350

合计12350

结构

时间为2分钟。第二部分由考生根据信息卡(图片或文字)上的国际商务活动主要内容简要阐述个人观点,时间为4分钟。第三部分由考生A 根据信息卡(图片或文字)上提供的商务场景,与考生B 展开模拟商务沟通,时间为6分钟。

三、研究问题与方法

本文重点回答以下三个问题:1)全国商务英语四级笔试的测试信效度如何?2)试卷各题项的难易度如何?3)根据数据统计分析结果如何对改进本考试?

本研究的数据分析包括以下4种定量统计:1)描述性统计,并作t 检验,2)信度分析,3)效度分析,4)项目难度分析。合格的考试需要具有良好的信度和效度。本研究的信度分析选择测量分半信度(split-half reliability),计算Cronbach ’s Alpha信度系数,以检验考题的内部一致性,主要考察五个指标:测试内容、反应过程、测试的内部结构、测试分数与其他测量之间的关系、测试引发的结果(邹申,2005)。本研究的题目难度分析采用项目反应理论(IRT )的Rasch 模型测量。

四、结果与讨论

(一)考生成绩分布

2013年考生来自全国19所本专科院校,参加笔试的人数为1921人,有448名学生笔试及格(60分及以上),及格率为23.32%。参加笔试的本科生有503人,292名考生及格,及格率为58.05%;参加笔试的专科生有1418人,156名考生及格,及格率为11%。

表2:商务英语专业四级笔试成绩统计分析

考试模块人数题目满分全距最低分最高分平均分听力阅读写作翻译总分

[***********]21

[1**********]

3020192386

00000

3020192386

14.949.9011.8713.7250.42

标准差5.225483.237734.213134.4901513.41343

笔试

口试

听力部分共35分,15道题,由选择、填空和简答三种题型组成,其中,选择题5道,填空题5道,简答题3道。阅读和写作部分共40分,20道题,由填空、商务信息解读、阅读理解与写作三种题型组成。其中第一部分为填空题,要求考生依据所读内容选择正确选项,均为单选题。第二部分为商务信息解读,要求考生依据图表正确判断出相关信息。第三部分为商务阅读理解与写作题,包含阅读理解和阅读后写作二种题型,阅读理解由3-4篇短文组成,要求考生依据阅读的内容选出一个正确选项;阅读后写作要求考生先阅读,然后选出正确答案,再依据内容和提示要求,完成一篇约150词的商务体裁作文。商务知识和翻译部分共25分,包括商务用语英译汉和商务短文汉译英两种题型。商务用语英译汉包括5道题,要求考生将80词左右的商务英语用语翻译成汉语,并用汉语简要解释该用语的含义;商务短文汉译英要求考生在规定的时间内将一篇约60字的汉语原文翻译成英语。口试部分由口头问答、观点陈述、商务沟通三种题型组成,其中第一部分由考生就提出的问题进行回答,

表2显示,各模块成绩的全距都比较大,最低分都是零分,最高分都接近满分。除了写作和翻译外,其他部分的整体成绩偏低,平均分都低于满分分值的一半。此外,听力部分的标准差最大,这主要因为其分值最大(35分),导致考生得分的差异较大。进一步比较发现,在分值相同的情况下,写作的平均成绩高于阅读,标准差稍低,这表明写作的整体难度可能低于阅读。

表3和表4分别报告了本、专科院校成绩的描述性统计量。数据显示,本科院校各模块的平均分及总平均分都高于专科院校,说明本考试的水平区分度具有一定的科学性,客观反映出本科院校考生水平高于专科院校考生符合实际情况,但二者是否具有显著差异需要进行独立样本t 检验。

表5报告了t 检验的结果。表5中Levene 检验本、专科院校成绩的方差齐性,t 检验则考察本、专科院校的平均

6

全国商务英语专业四级考试的测试学分析

成绩是否存在显著差异性。数据显示,本、专科院校各模块的成绩及总成绩均具有显著差异(p

表3:本科院校考生笔试成绩统计分析

考试模块人数听力阅读写作翻译总分

[**************]

全距2420192378全距2720182279

全距最低分最高分60008

3020192386

19.3911.9514.4715.5061.31

平均分4.498703.401683.073273.82686

标准差5.225483.237734.213134.49015

的、各题目得分与总分的相关系数,与总分相关度较低的题目可能需要修改或删除;第五列为删除各题目后考试的Cronbach ’s Alpha,如果比未删除时的Alpha 值高,可以考虑删除该题目;表格末尾的Reliability Statistics报告考生人数、信度分析的题目个数及整体考试的Cronbach ’s Alpha。

表6的数据显示,所有题目的Cronbach ’s Alpha为0.735,表明考试的内部一致性较好。不过,听录音填空第2题的得分与总分经校正后的相关系数呈负向,这是考试中不应出现的情况;听录音选择第4题、听录音填空第4题、第二篇阅读理解第1题的得分与总分经校正后的相关系数低于0.1,表明这3道题与考试所测内容的关系不紧密。删除以上4个题目后,考试的一致性保持不变甚至略有提高(最大可提高至0.736),因而这些题目可以考虑修改。

听力部分共13道题,信度分析结果显示,Cronbach ’s Alpha 信度系数为0.503,表明听力模块具有较好的内部一致性。除听录音填空第2题、第4题的得分与听力题总分经校正后的相关系数低于0.1以外,其余各题相关系数均高于

t 检验

11.7240513.41343平均分4.505672.841874.176564.53976

标准差5.225483.237734.213134.49015

表4:专科院校考生笔试成绩统计分

考试模块人数听力阅读写作翻译总分

[***********]18

全距最低分最高分00000

2720182279

13.369.1710.9513.0946.56

11.7511013.41343

表5:本、专科院校成绩的差异显著性检验

考试模块方差齐性方差非齐性方差齐性

阅读

方差非齐性方差齐性

写作

方差非齐性方差非齐性

翻译

方差非齐性方差齐性

笔试总分

方差非齐性听力

检验25.81716.42320.01311.53024.227883.192764.7341193.7041036.761883.779.000.000.000.000.0006.032.783.532.4114.75.23356.16941.17629.20892.60881

(二)测试信度效度分析

本考试包括口试和笔试,口试为若干套平行试题;笔试只有一套试卷。由于每名考生只考一次,适合采用分半信度和Cronbach ’s Alpha来考察试卷信度。在计算分半信度时,本文采用按模块分半和按奇偶分半结合的方法,即将听力、阅读、写作、翻译模块内的题目都按奇偶数分为两半。需要注意的是,“听录音回答”部分只有总分,写作模块只有1道题,商务短文汉译英也只有1道题,无法一分为二。本文根据题目的奇偶数顺序,将“听录音回答”部分划入第一部分,写作和短文翻译划入第二部分。不过,这种做法将在一定程度上降低信度系数。统计结果表明,考试的分半信度(Guttman Split-Half Coefficient)为0.769,表明试卷具有良好的信度。本报告进一步计算了整份试卷及听力、阅读、翻译三部分的Cronbach ’s Alpha。由于写作只有1道题,无法统计该部分的内部一致性。

表6报告了整份试卷的Cronbach ’s Alpha分析结果。表格第一列为题目类型和题号,其中“听录音回答-总分”为三道题的人工总评分;第二列为删除各题目后的总平均分;第三列为删除各题目后考试的方差;第四列为校正后

0.1。删除这两个题目后,听力部分的Alpha 系数略有提高(分别可提高至0.519和0.506),可以考虑对这两道题进行修改。

阅读部分共20道题,信度分析结果为0.629,表明阅读模块具有良好的内部一致性。不过,第二篇阅读理解第1题、第一篇阅读图片选择第1题的得分与阅读题总分经校正后的相关系数低于0.1,删除这两个题目后,阅读部分的Alpha 系数略有提高(分别可提高至0.644和0.630),因而需要修改或删除。

翻译部分的Cronbach ’s Alpha系数为0.340。由于该部分只有两道大题,信度系数达到0.340已属不易。其中,5道商务用语英译汉的得分与翻译总分经校正后的相关系数都在0.3左右,而商务短文汉译英的得分与翻译部分总分经校正后的相关系数为0.182。查阅试卷发现,商务用语英译汉部分不仅要求学生翻译,还要求用英语对商务用语进行名词解释,侧重于考察学生对商务知识的理解。相对而言,商务短文汉译英侧重于考察学生的语篇翻译能力。因此,这两部分所评测的是“商务知识和翻译”的两个能力维度,造成内部一致性信度系数偏低。

7

广东外语外贸大学学报

表6:试卷客观选择题信度分析

听录音选择第1题听录音选择第2题听录音选择第3题听录音选择第4题听录音选择第5题听录音填空第1题听录音填空第2题听录音填空第3题听录音填空第4题听录音填空第5题听录音回答总分阅读完形填空第1题阅读完形填空第2题阅读完形填空第3题阅读完形填空第4题阅读完形填空第5题阅读图片选择1

阅读图片选择2第1题阅读图片选择2第2题阅读图片选择3第1题阅读图片选择3第2题阅读理解选择1第1题阅读理解选择1第2题阅读理解选择1第3题阅读理解选择1第4题阅读理解选择1第5题阅读理解选择2第1题阅读理解选择2第2题阅读理解选择2第3题阅读理解选择2第4题阅读理解选择2第5题写作

商务用语英译汉第1题商务用语英译汉第2题商务用语英译汉第3题商务用语英译汉第4题商务用语英译汉第5题商务短文汉译英N of Valid Cases = 1921 N of Items = 38 Cronbach’s Alpha = .735

48.6649.1749.1448.7849.3550.1550.0549.8350.3550.1944.0450.2549.8450.0449.8850.0949.5850.3149.8149.7449.6550.0850.2249.8649.9549.8249.7949.8149.9750.1449.7438.5549.6749.5749.7249.6349.6540.57

175.059.258.729172.853.241.729169.743.370.723177.356.097.734175.144.143.733173.741.315.728179.430-.006.738171.964.297.727179.270.051.735174.121.319.728128.296.653.685177.896.184.733175.899.289.730176.614.237.731177.585.157.733176.899.223.731178.658.115.734178.144.197.733174.922.369.728177.522.177.732177.330.217.732175.588.326.729177.955.170.733177.187.188.732175.431.321.729175.836.296.730179.375.024.736177.079.200.732174.676.380.728177.256.204.732177.073.212.732111.720.566.720175.125.285.729174.387.459.727176.285.207.731171.075.437.723171.272.437.723132.595.427.728

综上所述,考试的分半信度为0.769,Cronbach ’s Alpha 为0.735,具有良好的信度。听力、阅读、翻译部分的Cronbach ’s Alpha分别为0.503、0.629和0.340,表明这三个模块也具有较好的内部一致性。不过,听录音填空第2题的得分与考试总分经校正的相关系数呈负相关趋势,与听力题总分经校正后的相关系数低于0.1,听录音选择第4题、听录音填空第4题的得分与总分或听力部分总分经校正后的相关系数低于0.1,第二篇阅读理解第1题与考试总分、阅读理解部分总分经校正后的相关系数低于0.1,第一篇阅读图片选择第1题的得分与阅读题总分经校正后的相关系数低于0.1,这5道题需要修改或删除。由于翻译部分评价多个能力维度,也影响到考试的内部一致性,需要在出题环节加以注意,使考试能够进一步综合考察商务英语应用能力。

(三)测试效度分析

保证测试效度的关键措施是效度分析,以检验测试内容的单维性和独立性,即测试的所有部分只测量单一维度的

内容,且各部分测量的内容各不相同。检验方法包括题目得分与总分的相关分析、内部一致性分析、因子分析等。本文采用题目得分与总分的相关系数来检验测试的单维性,结果见表7。

表7:题目得分与总分的相关性分析

题目

听力选择第1题听力选择第2题听力选择第3题听力选择第4题听力选择第5题听力填空第1题听力填空第2题听力填空第3题听力填空第4题听力填空第5题听录音回答总分阅读完形填空第1题阅读完形填空第2题

R .303**.309**.431**.154**.216**.361**.053**.359**.079**.362**.769**.212**.322**

题目

阅读图片选择3第1题阅读图片选择3第2题阅读理解选择1第1题阅读理解选择1第2题阅读理解选择1第3题阅读理解选择1第4题阅读理解选择1第5题阅读理解选择2第1题阅读理解选择2第2题阅读理解选择2第3题阅读理解选择2第4题阅读理解选择2第5题写作

R .210**.247**.358**.198**.224**.354**.329**.060**.235**.411**.236**.245**.760**

8

全国商务英语专业四级考试的测试学分析

阅读完形填空第3题阅读完形填空第4题阅读完形填空第5题阅读图片选择1

阅读图片选择2第1题阅读图片选择2第2题

.271**.193**.256**.142**.220**.400**

商务用语英译汉第1题商务用语英译汉第2题商务用语英译汉第3题商务用语英译汉第4题商务用语英译汉第5题商务短文汉译英

.325**.485**.249**.480**.479**.631**

因素(即多个面)共同作用的结果。该模型可以排除这些因素的影响,将考试中各个面的真实测量值分离出来,用同一个logit 尺度进行估算(Bonk & Ockey, 2003; Linacre, 2008; Lynch & McNamara, 1998; 江进林 & 文秋芳,2010;刘建达,2005)。本报告采用John M. Linacre设计的软件FACETS 来实施多面Rasch 模型。考试涉及三个面:考生、考生院校和试题。考生共1921名;考生院校有本科和专科两种;试题有38个(“听录音回答-总分”为三道题的人工总评分,视为1道试题)。第1-10、33-37题为客观题,每道题的满分为2分,采用2分制多元选择模型(polytomous model )进行分析。第12-31题为客观题,每道题的分值为1分,采用二分选择模型(dichotomous model)进行分析。第11、32、38题为主观题,根据分值分别使用15、20、15分制多元选择模型。图1显示了各面的概况。

图中第一列为logit 尺度,

用于衡量各面的真实测量值,

注:**指相关性在0.01水平(双侧)上具有显著意义

表7显示,所有题目的得分都与总分显著相关,表明考试具有良好的效度。不过,听录音填空第2题、第4题、第二篇阅读理解第1题的得分与总分的相关度低于0.1,可见这三道题目与考试所测的内容联系不紧密,可能需要修改或删除。

(四)测试难度的RASCH 模型分析

本报告采用多面Rasch 模型(Many-Facet Rasch Model )进行试题难度分析。该模型是标准Rasch 模型的扩展,基本思想是:测试结果并不仅仅反映考生能力,而是考生能力、考生类型、评分员严厉度、试题难度等多种

图1:各面的概况

9

广东外语外贸大学学报

即采用将其他面的内部成分替换为0或各面平均值的方法,排除其他面的影响后得到的测量值。第二列为考生的真实能力值,按能力的高低自上而下排列,每个星号代表28名考生,每个圆点表示少于28个考生。如图所示,考生的能力值约在-5和+2.2之间,整体偏低,不过分布比较均匀。第三列为考生院校,这个面被设为哑面(dummy facet),不进入对其他面的分析,因而各成分的logit 值都为0。第四列为题目的真实难度,按难度的高低自上而下排列。图中显示,题目难度约在-3.2和+2.4之间,分布比较集中,仅听录音填空第4题(L2t9)难度偏小。按惯例,占难度跨度前20%的题目不应超过所有题目的20%。图中的题目难度跨越5.6个logit ,前20%约在+1.28和+2.4之间;该难度范围内的题目有4至6个,少于题目总数(38个)的五分之一(约7个)。因此,题目的整体难度合适。

从图1中只能看出题目难度的整体分布。表7进一步报告了各题目的具体测量值。在第一大栏中,第一列为所有考生在某一题目上的总分;第二列为考生人数;第三列为考生平均分;第四列为排除其他面的影响后,模型计算出的考生平均分。在第二大栏中,第一列为题目的真实难度;第二列为模型的估计误差。在第三大栏中,第一列的Infit MnSq指information-weighted mean-square fit statistic,即加权均方拟合统计量;第三列Outfit MnSq指conventional mean-square fit statistic,即常规(未加权)均方拟合统计量,这两个拟合数据反映题目对考生的区分情况,一般应在0.5-1.5的范围内(Linacre, 2002, 2008);第二列和第四列的ZStd 指z-standardized MnSq statistics,即呈正态分布的标准拟合数据,分别对第一列和第三列进行补充说明(Linacre, 2008)。在第四大栏中,第一列为题目编号,第二列为具体题目。表末进一步报告所有题目的平均分、平均难度等指标。其中Separation 指分隔指数;Reliability 指分隔指数信度,取值在0-1之间。这两个值越大,表明题目难度的差异越大。表格最后两行报告卡方检验的结果,用于判断题目难度的差异是否具有显著意义。

表8的Measure 值显示,听录音填空第4题(L2t9)最容易,难度为-3.23;听录音选择第1题(L1t1)最难,难度为2.39。Infit和Outfit值显示,题目的拟合数据基本上在0.5-1.5之间,都能合理区分考生。只有商务短文汉译英(T2t40)的拟合统计量略大于1.5(分别为1.37和1.62),表明该题的区分度可能稍高,拉大了考生之间的距离;或者该题存在题目功能差异(Differential Item Functioning, DIF ),有利于某个群体的考生;或者该题考察的不仅仅是商务英语应用能力;或者该题的人工评分信度需要进一步提高,这需要专家进行判断。表7末数据显示,所有题目的平均难度为0,标准差为0.13;题目难度的分隔指数为21.53,分隔指数信度达到1,卡方检验的显著性为0.00,表明题目难度存在显著差异,这是考试中应该出现的情况。由此可见,考试各题目的难度分布均匀,且具有显著差异,符合出

题要求。除了商务短文汉译英外,各题目的拟合数据都在标

表8:题目测量值

10

全国商务英语专业四级考试的测试学分析

准范围内,能够合理区分考生。

景。今后努力方向应该进一步提高考试的稳定性和信效度,建立更大规模的题库,改进口试的形式和评分信度。

参考文献:

[1]American Educational Research Association, American Psychological Association, and National Council on Measurement in Education. Standards for Educational and Psychological Testing[S]. Washington, D.C.: American Educational Research Association, 1999.

[2]Bonk, W. J. & Ockey, G. J. A Many-Facet Rasch Analysis of the Second Language Group Oral Discussion Task[J]. Language Testing, 2003, 20(1): 89-110.

[3]Linacre, J. M. What Do Infit and Outfit, Mean-Square and Standardized Mean?[J] Rasch Measurement Transactions, 2002, 16(2): 878.

[4]Linacre, J. M. A User’s Guide to FACETS: Rasch-Model Computer Program [M]. Chicago: MESA Press, 2008.

[5]Lynch, B. & McNamara, T. F. Using G-theory and Many-facet Rasch Measurement in the Development of Performance Assessments of the ESL Speaking Skills of Immigrants[J]. Language Testing, 1998, 15(2): 158-180.

[6]Messick, S. Validity. In Lin, R. L. (ed.). Educational Measurement (3rd edition)[M]. New York: American Council on Education and Macmillan Publishing Company, 1989. 13-103.

[7]江进林 、文秋芳. 基于Rasch 模型的翻译测试效度研究[J]. 外语电化教学, 2010, (1): 14-18.

[8]刘建达. 话语填充测试方法的多层面Rasch 模型分析[J]. 现代外语, 2005, 28(2): 51-63.

[9]秦晓晴. 外语教学研究中的定量数据分析[M]. 武汉: 华中科技大学出版社, 1999.

[10]邹申. 语言测试[M]. 上海: 上海外语教育出版社, 2005.

五、结论

本文对2013年全国商务专业英语四级笔试的成绩进行了描述性统计和t 检验,分析了考试的信度、效度和题目难度,得出以下结论:1) 考试总体上具有较好的稳定性,考生总平均成绩为50.42分,及格率为23.32%。本、专科院校考生的平均成绩分别为61.31和46.56分,及格率分别为58.05%和11%。本、专科院校考生的平均成绩差异达到14.75分,具有显著性。两类院校考生在笔试各模块上的平均成绩也具显著差异,其中听力的差异最高,达到6.03分;其次是写作部分,平均分差异为3.53分。2) 考试的信、效度较好。统计结果显示,整体笔试及听力、阅读、写作模块都具有良好的信度;各题目得分和总分的相关关系表明,考试具有良好的效度。不过,听录音填空第2题与考试所测内容不一致或不相关,听录音选择第4题、听录音填空第4题、第二篇阅读理解第1题、第一篇阅读图片选择第1题与考试内容关系不紧密,需要修改或删除。此外,翻译部分评价多个能力维度,需要在出题环节加以注意,使试题能够更加综合地考察商务英语应用能力。3) 考试题目的难度分布均匀,能够合理区分考生,符合出题要求。仅商务短文汉译英的拟合数据略高于标准,一方面可能因为所考内容具有多维性,一方面可能受到人工评分的影响,需要进一步加强评分员培训环节。目前,全国已有216所高校开设了商务英语专业,每年有几十万毕业生进入国际商务领域工作。各类外向型企业、用人单位选用国际商务人才和考核国际商务人员需要一个与就业和行业相关的考试衡量院校的教学水平和考核毕业生的商务英语能力,因此,本考试具有广阔的发展前

A Statistical Analysis of Test Band 4 for Business English Majors

Wang Lifei Xu Dejin Jiang Jinlin

Abstract: This paper describes the scales design of Test for Business English Majors (TBEM). It measures the reliability and validity of this large-scale test (Band 4) based on the testing data of 2013. It built a multi-facet RASCH model to determine the difficultness and discrimination of each test item. Statistic results show that the test is reliable, valid and suitable for large-scale testing if with some minor revision of the items in question. Finally, it raises some suggestions for future improvement.

Key words: Business English Majors; Business English Test; Band 4 Test; Reliability; Validity

11

2015年第1期NO.1 2015

广东外语外贸大学学报

JOURNAL OF GUANGDONG UNIVERSITY OF FOREIGN STUDIES

2015年1月Jan. 2015

全国商务英语专业四级考试的测试学分析

王立非 许德金 江进林

(对外经济贸易大学·北京·100029)

内容提要:本文探讨了全国商务英语专业英语四级考试能力量表的设计,以2013年的笔试数据为依据,对考试的信度和效度进行分析,并运用多面R A S C H 模型,测量了试卷各题目的难度,以检验该考试的区分度和权威性。统计结果显示,该考试具有良好的信度和效度,试题能够合理区分考生,符合测试学的要求,适用于大规模考试。本文对测试题的改进和今后如何完善该考试提出了建议。

关键词:商务英语专业;商务英语考试;四级考试;信度;效度

中图分类号:H310.4 文献标识码:A 文章编号:1672-0962(2015)01-0005-07

一、引言

商务英语专业四级考试是为了考查全国高等学校商务英语专业教学情况而设置的专业水平考试,主要测试商务英语专业本科生的英语语言水平、商务文化知识和跨文化交际能力,为考生提供科学的商务英语能力量表,同时也是各院校评估商务英语专业教学质量的依据,属于标准参照性学业考试。按照《高等学校商务英语专业考试大纲》(试行)四级考试要求,完成相应学习任务的高等学校在校大二本科生须参加本考试。高职高专商务英语专业第三学年可根据情况由学校为单位统一组织参加本考试。本文探讨了全国商务专业英语四级考试能力量表的设计,以2013年的笔试数据为依据,对考试的信度和效度进行分析,

够听懂目标语语速大约为130词/分钟,句子结构较为复杂的一般性商务话语,能基本掌握其内容及细节要点,通过分析推理,较为准确把握说话人的态度、情感及真实意图。一般性商务话语主要涉及面试、会议、谈判活动、商务讲座、演讲、旅游、基本的商务报告、产品介绍人说明、广告、投诉、纠纷等基本商务活动。阅读部分要求能以大约200词/分钟的速度读懂各类基本的商务材料,如商务信函、产品说明书、会议记录、备忘录、广告、商务单证、商务合同、商务报告等,能运用有效的阅读技巧,把握所涉商务材料的主旨,并能够在阅读中进行归纳和推理。理解准确率不低于80%。翻译部分要求能对中等难度的国际商务材料(如商务函电、商务合同、商务报告、商务标书、商业企划书)等进行英汉互译,译文基本准确流畅。英译汉的速度能达到约4个词/分钟,汉译英翻译速度则达到大约3个字/分钟。写作部分要求能起草中等难度的国际商务文稿(如电子商务报文、商务信函、商务合同、商业企划书、商务报告等),完成会议记录、商务文献摘要等写作任务,做到文章结构清晰、要点突出、内容切题、逻辑性较强。写作速度约为200词/30分钟。口语部分要求能在各类国际商务活动(如商务会谈、商务培训、商品交易会、市场调研、企业管理、会议组织、市场营销等)中较为流利和正确地运用英语有效地交谈和沟通,能较恰当地运用会话策略较系统和连贯地表达个人的观点、建议或情感,显示出较强的跨文化商务交际能力,语音语调准确自然。商务知识与技能方面要求了解国际

二、考试量表与题型的设计

本考试内容主要包括英语语言水平、商务文化知识和跨文化交际能力三个方面。英语语言水平部分重点考查国际商务一般环境中考生使用英语进行听、说、读、写、译的基本能力。商务文化知识部分主要考查考生对国际商务业务与文化方面的基本知识储备,着重考察国际贸易活动方面的基本知识。跨文化商务交际部分重点考查考生应用商务英语从事国际商务的沟通能力。

1. 考试量表设计

本考试对三部分都提出了具体的要求。听力部分要求能

收稿日期:2014-10-08 基金项目:本文为北京市社会科学基金重点项目 “商务人才外语能力的语言学理

论基础研究”(14WYA006 )的相关成果。

作者简介:王立非,男,博士,对外经济贸易大学英语学院教授、博士生导师,研究方向为应用语言学、商务

英语。许德金,男,博士,对外经济贸易大学英语学院教授,博士生导师;研究方向为跨文化、商务英语。 江进林,女,博士,对外经济贸易大学英语学院副教授,研究方向为语言测试学。

5

广东外语外贸大学学报

商务文化的基本概念、国际商务礼仪和国际商务活动中的基本规则和文化常识;了解国际商务基本概念和知识(如宏微观经济学、管理学、国际商法、国际贸易、国际金融、国际市场营销等专业),以及国际商务活动其他相关领域的基本知识。跨文化交际能力方面要求初步具备国际商务环境下的跨文化意识、跨文化商务适应能力及商务沟通能力。考试的词汇要求为:认知7000个左右的基本词汇,其中包括1000个左右的常用商务词汇;较为准确、熟练地运用3000个左右的常用词汇及其最基本的搭配。

2. 考试题型设计

本考试分为笔试与口试,使用多种题型分别进行测试,笔、口试均采用机考形式。笔试满分为100分,口试满分为50分。笔试部分包括三大模块:听力、阅读和写作、商务知识和翻译。

表1:商务英语专业四级考试题型与结构

考试形式

时间题型题数计分

选择(匹配)510填空510

听力30

简答 (1-2篇短文)315

小计1335

选择填空55商务信息解读55

10商务阅读理阅读理解10阅读与写作50

解与写作阅读写作120

小计2040

商务用语英译汉510

商务知识与

40商务短文汉译英115

翻译

小计625

合计12039100

口头问答110观点陈述120

口语12

商务沟通120

小计350

合计12350

结构

时间为2分钟。第二部分由考生根据信息卡(图片或文字)上的国际商务活动主要内容简要阐述个人观点,时间为4分钟。第三部分由考生A 根据信息卡(图片或文字)上提供的商务场景,与考生B 展开模拟商务沟通,时间为6分钟。

三、研究问题与方法

本文重点回答以下三个问题:1)全国商务英语四级笔试的测试信效度如何?2)试卷各题项的难易度如何?3)根据数据统计分析结果如何对改进本考试?

本研究的数据分析包括以下4种定量统计:1)描述性统计,并作t 检验,2)信度分析,3)效度分析,4)项目难度分析。合格的考试需要具有良好的信度和效度。本研究的信度分析选择测量分半信度(split-half reliability),计算Cronbach ’s Alpha信度系数,以检验考题的内部一致性,主要考察五个指标:测试内容、反应过程、测试的内部结构、测试分数与其他测量之间的关系、测试引发的结果(邹申,2005)。本研究的题目难度分析采用项目反应理论(IRT )的Rasch 模型测量。

四、结果与讨论

(一)考生成绩分布

2013年考生来自全国19所本专科院校,参加笔试的人数为1921人,有448名学生笔试及格(60分及以上),及格率为23.32%。参加笔试的本科生有503人,292名考生及格,及格率为58.05%;参加笔试的专科生有1418人,156名考生及格,及格率为11%。

表2:商务英语专业四级笔试成绩统计分析

考试模块人数题目满分全距最低分最高分平均分听力阅读写作翻译总分

[***********]21

[1**********]

3020192386

00000

3020192386

14.949.9011.8713.7250.42

标准差5.225483.237734.213134.4901513.41343

笔试

口试

听力部分共35分,15道题,由选择、填空和简答三种题型组成,其中,选择题5道,填空题5道,简答题3道。阅读和写作部分共40分,20道题,由填空、商务信息解读、阅读理解与写作三种题型组成。其中第一部分为填空题,要求考生依据所读内容选择正确选项,均为单选题。第二部分为商务信息解读,要求考生依据图表正确判断出相关信息。第三部分为商务阅读理解与写作题,包含阅读理解和阅读后写作二种题型,阅读理解由3-4篇短文组成,要求考生依据阅读的内容选出一个正确选项;阅读后写作要求考生先阅读,然后选出正确答案,再依据内容和提示要求,完成一篇约150词的商务体裁作文。商务知识和翻译部分共25分,包括商务用语英译汉和商务短文汉译英两种题型。商务用语英译汉包括5道题,要求考生将80词左右的商务英语用语翻译成汉语,并用汉语简要解释该用语的含义;商务短文汉译英要求考生在规定的时间内将一篇约60字的汉语原文翻译成英语。口试部分由口头问答、观点陈述、商务沟通三种题型组成,其中第一部分由考生就提出的问题进行回答,

表2显示,各模块成绩的全距都比较大,最低分都是零分,最高分都接近满分。除了写作和翻译外,其他部分的整体成绩偏低,平均分都低于满分分值的一半。此外,听力部分的标准差最大,这主要因为其分值最大(35分),导致考生得分的差异较大。进一步比较发现,在分值相同的情况下,写作的平均成绩高于阅读,标准差稍低,这表明写作的整体难度可能低于阅读。

表3和表4分别报告了本、专科院校成绩的描述性统计量。数据显示,本科院校各模块的平均分及总平均分都高于专科院校,说明本考试的水平区分度具有一定的科学性,客观反映出本科院校考生水平高于专科院校考生符合实际情况,但二者是否具有显著差异需要进行独立样本t 检验。

表5报告了t 检验的结果。表5中Levene 检验本、专科院校成绩的方差齐性,t 检验则考察本、专科院校的平均

6

全国商务英语专业四级考试的测试学分析

成绩是否存在显著差异性。数据显示,本、专科院校各模块的成绩及总成绩均具有显著差异(p

表3:本科院校考生笔试成绩统计分析

考试模块人数听力阅读写作翻译总分

[**************]

全距2420192378全距2720182279

全距最低分最高分60008

3020192386

19.3911.9514.4715.5061.31

平均分4.498703.401683.073273.82686

标准差5.225483.237734.213134.49015

的、各题目得分与总分的相关系数,与总分相关度较低的题目可能需要修改或删除;第五列为删除各题目后考试的Cronbach ’s Alpha,如果比未删除时的Alpha 值高,可以考虑删除该题目;表格末尾的Reliability Statistics报告考生人数、信度分析的题目个数及整体考试的Cronbach ’s Alpha。

表6的数据显示,所有题目的Cronbach ’s Alpha为0.735,表明考试的内部一致性较好。不过,听录音填空第2题的得分与总分经校正后的相关系数呈负向,这是考试中不应出现的情况;听录音选择第4题、听录音填空第4题、第二篇阅读理解第1题的得分与总分经校正后的相关系数低于0.1,表明这3道题与考试所测内容的关系不紧密。删除以上4个题目后,考试的一致性保持不变甚至略有提高(最大可提高至0.736),因而这些题目可以考虑修改。

听力部分共13道题,信度分析结果显示,Cronbach ’s Alpha 信度系数为0.503,表明听力模块具有较好的内部一致性。除听录音填空第2题、第4题的得分与听力题总分经校正后的相关系数低于0.1以外,其余各题相关系数均高于

t 检验

11.7240513.41343平均分4.505672.841874.176564.53976

标准差5.225483.237734.213134.49015

表4:专科院校考生笔试成绩统计分

考试模块人数听力阅读写作翻译总分

[***********]18

全距最低分最高分00000

2720182279

13.369.1710.9513.0946.56

11.7511013.41343

表5:本、专科院校成绩的差异显著性检验

考试模块方差齐性方差非齐性方差齐性

阅读

方差非齐性方差齐性

写作

方差非齐性方差非齐性

翻译

方差非齐性方差齐性

笔试总分

方差非齐性听力

检验25.81716.42320.01311.53024.227883.192764.7341193.7041036.761883.779.000.000.000.000.0006.032.783.532.4114.75.23356.16941.17629.20892.60881

(二)测试信度效度分析

本考试包括口试和笔试,口试为若干套平行试题;笔试只有一套试卷。由于每名考生只考一次,适合采用分半信度和Cronbach ’s Alpha来考察试卷信度。在计算分半信度时,本文采用按模块分半和按奇偶分半结合的方法,即将听力、阅读、写作、翻译模块内的题目都按奇偶数分为两半。需要注意的是,“听录音回答”部分只有总分,写作模块只有1道题,商务短文汉译英也只有1道题,无法一分为二。本文根据题目的奇偶数顺序,将“听录音回答”部分划入第一部分,写作和短文翻译划入第二部分。不过,这种做法将在一定程度上降低信度系数。统计结果表明,考试的分半信度(Guttman Split-Half Coefficient)为0.769,表明试卷具有良好的信度。本报告进一步计算了整份试卷及听力、阅读、翻译三部分的Cronbach ’s Alpha。由于写作只有1道题,无法统计该部分的内部一致性。

表6报告了整份试卷的Cronbach ’s Alpha分析结果。表格第一列为题目类型和题号,其中“听录音回答-总分”为三道题的人工总评分;第二列为删除各题目后的总平均分;第三列为删除各题目后考试的方差;第四列为校正后

0.1。删除这两个题目后,听力部分的Alpha 系数略有提高(分别可提高至0.519和0.506),可以考虑对这两道题进行修改。

阅读部分共20道题,信度分析结果为0.629,表明阅读模块具有良好的内部一致性。不过,第二篇阅读理解第1题、第一篇阅读图片选择第1题的得分与阅读题总分经校正后的相关系数低于0.1,删除这两个题目后,阅读部分的Alpha 系数略有提高(分别可提高至0.644和0.630),因而需要修改或删除。

翻译部分的Cronbach ’s Alpha系数为0.340。由于该部分只有两道大题,信度系数达到0.340已属不易。其中,5道商务用语英译汉的得分与翻译总分经校正后的相关系数都在0.3左右,而商务短文汉译英的得分与翻译部分总分经校正后的相关系数为0.182。查阅试卷发现,商务用语英译汉部分不仅要求学生翻译,还要求用英语对商务用语进行名词解释,侧重于考察学生对商务知识的理解。相对而言,商务短文汉译英侧重于考察学生的语篇翻译能力。因此,这两部分所评测的是“商务知识和翻译”的两个能力维度,造成内部一致性信度系数偏低。

7

广东外语外贸大学学报

表6:试卷客观选择题信度分析

听录音选择第1题听录音选择第2题听录音选择第3题听录音选择第4题听录音选择第5题听录音填空第1题听录音填空第2题听录音填空第3题听录音填空第4题听录音填空第5题听录音回答总分阅读完形填空第1题阅读完形填空第2题阅读完形填空第3题阅读完形填空第4题阅读完形填空第5题阅读图片选择1

阅读图片选择2第1题阅读图片选择2第2题阅读图片选择3第1题阅读图片选择3第2题阅读理解选择1第1题阅读理解选择1第2题阅读理解选择1第3题阅读理解选择1第4题阅读理解选择1第5题阅读理解选择2第1题阅读理解选择2第2题阅读理解选择2第3题阅读理解选择2第4题阅读理解选择2第5题写作

商务用语英译汉第1题商务用语英译汉第2题商务用语英译汉第3题商务用语英译汉第4题商务用语英译汉第5题商务短文汉译英N of Valid Cases = 1921 N of Items = 38 Cronbach’s Alpha = .735

48.6649.1749.1448.7849.3550.1550.0549.8350.3550.1944.0450.2549.8450.0449.8850.0949.5850.3149.8149.7449.6550.0850.2249.8649.9549.8249.7949.8149.9750.1449.7438.5549.6749.5749.7249.6349.6540.57

175.059.258.729172.853.241.729169.743.370.723177.356.097.734175.144.143.733173.741.315.728179.430-.006.738171.964.297.727179.270.051.735174.121.319.728128.296.653.685177.896.184.733175.899.289.730176.614.237.731177.585.157.733176.899.223.731178.658.115.734178.144.197.733174.922.369.728177.522.177.732177.330.217.732175.588.326.729177.955.170.733177.187.188.732175.431.321.729175.836.296.730179.375.024.736177.079.200.732174.676.380.728177.256.204.732177.073.212.732111.720.566.720175.125.285.729174.387.459.727176.285.207.731171.075.437.723171.272.437.723132.595.427.728

综上所述,考试的分半信度为0.769,Cronbach ’s Alpha 为0.735,具有良好的信度。听力、阅读、翻译部分的Cronbach ’s Alpha分别为0.503、0.629和0.340,表明这三个模块也具有较好的内部一致性。不过,听录音填空第2题的得分与考试总分经校正的相关系数呈负相关趋势,与听力题总分经校正后的相关系数低于0.1,听录音选择第4题、听录音填空第4题的得分与总分或听力部分总分经校正后的相关系数低于0.1,第二篇阅读理解第1题与考试总分、阅读理解部分总分经校正后的相关系数低于0.1,第一篇阅读图片选择第1题的得分与阅读题总分经校正后的相关系数低于0.1,这5道题需要修改或删除。由于翻译部分评价多个能力维度,也影响到考试的内部一致性,需要在出题环节加以注意,使考试能够进一步综合考察商务英语应用能力。

(三)测试效度分析

保证测试效度的关键措施是效度分析,以检验测试内容的单维性和独立性,即测试的所有部分只测量单一维度的

内容,且各部分测量的内容各不相同。检验方法包括题目得分与总分的相关分析、内部一致性分析、因子分析等。本文采用题目得分与总分的相关系数来检验测试的单维性,结果见表7。

表7:题目得分与总分的相关性分析

题目

听力选择第1题听力选择第2题听力选择第3题听力选择第4题听力选择第5题听力填空第1题听力填空第2题听力填空第3题听力填空第4题听力填空第5题听录音回答总分阅读完形填空第1题阅读完形填空第2题

R .303**.309**.431**.154**.216**.361**.053**.359**.079**.362**.769**.212**.322**

题目

阅读图片选择3第1题阅读图片选择3第2题阅读理解选择1第1题阅读理解选择1第2题阅读理解选择1第3题阅读理解选择1第4题阅读理解选择1第5题阅读理解选择2第1题阅读理解选择2第2题阅读理解选择2第3题阅读理解选择2第4题阅读理解选择2第5题写作

R .210**.247**.358**.198**.224**.354**.329**.060**.235**.411**.236**.245**.760**

8

全国商务英语专业四级考试的测试学分析

阅读完形填空第3题阅读完形填空第4题阅读完形填空第5题阅读图片选择1

阅读图片选择2第1题阅读图片选择2第2题

.271**.193**.256**.142**.220**.400**

商务用语英译汉第1题商务用语英译汉第2题商务用语英译汉第3题商务用语英译汉第4题商务用语英译汉第5题商务短文汉译英

.325**.485**.249**.480**.479**.631**

因素(即多个面)共同作用的结果。该模型可以排除这些因素的影响,将考试中各个面的真实测量值分离出来,用同一个logit 尺度进行估算(Bonk & Ockey, 2003; Linacre, 2008; Lynch & McNamara, 1998; 江进林 & 文秋芳,2010;刘建达,2005)。本报告采用John M. Linacre设计的软件FACETS 来实施多面Rasch 模型。考试涉及三个面:考生、考生院校和试题。考生共1921名;考生院校有本科和专科两种;试题有38个(“听录音回答-总分”为三道题的人工总评分,视为1道试题)。第1-10、33-37题为客观题,每道题的满分为2分,采用2分制多元选择模型(polytomous model )进行分析。第12-31题为客观题,每道题的分值为1分,采用二分选择模型(dichotomous model)进行分析。第11、32、38题为主观题,根据分值分别使用15、20、15分制多元选择模型。图1显示了各面的概况。

图中第一列为logit 尺度,

用于衡量各面的真实测量值,

注:**指相关性在0.01水平(双侧)上具有显著意义

表7显示,所有题目的得分都与总分显著相关,表明考试具有良好的效度。不过,听录音填空第2题、第4题、第二篇阅读理解第1题的得分与总分的相关度低于0.1,可见这三道题目与考试所测的内容联系不紧密,可能需要修改或删除。

(四)测试难度的RASCH 模型分析

本报告采用多面Rasch 模型(Many-Facet Rasch Model )进行试题难度分析。该模型是标准Rasch 模型的扩展,基本思想是:测试结果并不仅仅反映考生能力,而是考生能力、考生类型、评分员严厉度、试题难度等多种

图1:各面的概况

9

广东外语外贸大学学报

即采用将其他面的内部成分替换为0或各面平均值的方法,排除其他面的影响后得到的测量值。第二列为考生的真实能力值,按能力的高低自上而下排列,每个星号代表28名考生,每个圆点表示少于28个考生。如图所示,考生的能力值约在-5和+2.2之间,整体偏低,不过分布比较均匀。第三列为考生院校,这个面被设为哑面(dummy facet),不进入对其他面的分析,因而各成分的logit 值都为0。第四列为题目的真实难度,按难度的高低自上而下排列。图中显示,题目难度约在-3.2和+2.4之间,分布比较集中,仅听录音填空第4题(L2t9)难度偏小。按惯例,占难度跨度前20%的题目不应超过所有题目的20%。图中的题目难度跨越5.6个logit ,前20%约在+1.28和+2.4之间;该难度范围内的题目有4至6个,少于题目总数(38个)的五分之一(约7个)。因此,题目的整体难度合适。

从图1中只能看出题目难度的整体分布。表7进一步报告了各题目的具体测量值。在第一大栏中,第一列为所有考生在某一题目上的总分;第二列为考生人数;第三列为考生平均分;第四列为排除其他面的影响后,模型计算出的考生平均分。在第二大栏中,第一列为题目的真实难度;第二列为模型的估计误差。在第三大栏中,第一列的Infit MnSq指information-weighted mean-square fit statistic,即加权均方拟合统计量;第三列Outfit MnSq指conventional mean-square fit statistic,即常规(未加权)均方拟合统计量,这两个拟合数据反映题目对考生的区分情况,一般应在0.5-1.5的范围内(Linacre, 2002, 2008);第二列和第四列的ZStd 指z-standardized MnSq statistics,即呈正态分布的标准拟合数据,分别对第一列和第三列进行补充说明(Linacre, 2008)。在第四大栏中,第一列为题目编号,第二列为具体题目。表末进一步报告所有题目的平均分、平均难度等指标。其中Separation 指分隔指数;Reliability 指分隔指数信度,取值在0-1之间。这两个值越大,表明题目难度的差异越大。表格最后两行报告卡方检验的结果,用于判断题目难度的差异是否具有显著意义。

表8的Measure 值显示,听录音填空第4题(L2t9)最容易,难度为-3.23;听录音选择第1题(L1t1)最难,难度为2.39。Infit和Outfit值显示,题目的拟合数据基本上在0.5-1.5之间,都能合理区分考生。只有商务短文汉译英(T2t40)的拟合统计量略大于1.5(分别为1.37和1.62),表明该题的区分度可能稍高,拉大了考生之间的距离;或者该题存在题目功能差异(Differential Item Functioning, DIF ),有利于某个群体的考生;或者该题考察的不仅仅是商务英语应用能力;或者该题的人工评分信度需要进一步提高,这需要专家进行判断。表7末数据显示,所有题目的平均难度为0,标准差为0.13;题目难度的分隔指数为21.53,分隔指数信度达到1,卡方检验的显著性为0.00,表明题目难度存在显著差异,这是考试中应该出现的情况。由此可见,考试各题目的难度分布均匀,且具有显著差异,符合出

题要求。除了商务短文汉译英外,各题目的拟合数据都在标

表8:题目测量值

10

全国商务英语专业四级考试的测试学分析

准范围内,能够合理区分考生。

景。今后努力方向应该进一步提高考试的稳定性和信效度,建立更大规模的题库,改进口试的形式和评分信度。

参考文献:

[1]American Educational Research Association, American Psychological Association, and National Council on Measurement in Education. Standards for Educational and Psychological Testing[S]. Washington, D.C.: American Educational Research Association, 1999.

[2]Bonk, W. J. & Ockey, G. J. A Many-Facet Rasch Analysis of the Second Language Group Oral Discussion Task[J]. Language Testing, 2003, 20(1): 89-110.

[3]Linacre, J. M. What Do Infit and Outfit, Mean-Square and Standardized Mean?[J] Rasch Measurement Transactions, 2002, 16(2): 878.

[4]Linacre, J. M. A User’s Guide to FACETS: Rasch-Model Computer Program [M]. Chicago: MESA Press, 2008.

[5]Lynch, B. & McNamara, T. F. Using G-theory and Many-facet Rasch Measurement in the Development of Performance Assessments of the ESL Speaking Skills of Immigrants[J]. Language Testing, 1998, 15(2): 158-180.

[6]Messick, S. Validity. In Lin, R. L. (ed.). Educational Measurement (3rd edition)[M]. New York: American Council on Education and Macmillan Publishing Company, 1989. 13-103.

[7]江进林 、文秋芳. 基于Rasch 模型的翻译测试效度研究[J]. 外语电化教学, 2010, (1): 14-18.

[8]刘建达. 话语填充测试方法的多层面Rasch 模型分析[J]. 现代外语, 2005, 28(2): 51-63.

[9]秦晓晴. 外语教学研究中的定量数据分析[M]. 武汉: 华中科技大学出版社, 1999.

[10]邹申. 语言测试[M]. 上海: 上海外语教育出版社, 2005.

五、结论

本文对2013年全国商务专业英语四级笔试的成绩进行了描述性统计和t 检验,分析了考试的信度、效度和题目难度,得出以下结论:1) 考试总体上具有较好的稳定性,考生总平均成绩为50.42分,及格率为23.32%。本、专科院校考生的平均成绩分别为61.31和46.56分,及格率分别为58.05%和11%。本、专科院校考生的平均成绩差异达到14.75分,具有显著性。两类院校考生在笔试各模块上的平均成绩也具显著差异,其中听力的差异最高,达到6.03分;其次是写作部分,平均分差异为3.53分。2) 考试的信、效度较好。统计结果显示,整体笔试及听力、阅读、写作模块都具有良好的信度;各题目得分和总分的相关关系表明,考试具有良好的效度。不过,听录音填空第2题与考试所测内容不一致或不相关,听录音选择第4题、听录音填空第4题、第二篇阅读理解第1题、第一篇阅读图片选择第1题与考试内容关系不紧密,需要修改或删除。此外,翻译部分评价多个能力维度,需要在出题环节加以注意,使试题能够更加综合地考察商务英语应用能力。3) 考试题目的难度分布均匀,能够合理区分考生,符合出题要求。仅商务短文汉译英的拟合数据略高于标准,一方面可能因为所考内容具有多维性,一方面可能受到人工评分的影响,需要进一步加强评分员培训环节。目前,全国已有216所高校开设了商务英语专业,每年有几十万毕业生进入国际商务领域工作。各类外向型企业、用人单位选用国际商务人才和考核国际商务人员需要一个与就业和行业相关的考试衡量院校的教学水平和考核毕业生的商务英语能力,因此,本考试具有广阔的发展前

A Statistical Analysis of Test Band 4 for Business English Majors

Wang Lifei Xu Dejin Jiang Jinlin

Abstract: This paper describes the scales design of Test for Business English Majors (TBEM). It measures the reliability and validity of this large-scale test (Band 4) based on the testing data of 2013. It built a multi-facet RASCH model to determine the difficultness and discrimination of each test item. Statistic results show that the test is reliable, valid and suitable for large-scale testing if with some minor revision of the items in question. Finally, it raises some suggestions for future improvement.

Key words: Business English Majors; Business English Test; Band 4 Test; Reliability; Validity

11


相关文章

  • 语言学院:英语.传播.西班牙语.葡萄牙语专业招生简章
  • 英语专业(双学位)教学计划 英语专业(双学位)项目旨在培养具有一定全球化视野.掌握英语专业技能.具备较强英语使用能力和较高人文素质,能够较快适应不同领域.各种层次英语工作的专业人才.本专业学习的主要内容包括英语语言基本技能训练.英语语言相关 ...查看


  • 2013级学前教育专业教学标准(20131017)
  • 学前教育专业2013级教学标准 本专业设置于2006年,现有一支稳定的专兼职教师队伍,学前教育专业教学团队目前,我院有本专业校内专任教师19人,其中,教授.副教授以上高级职称的教师10人(含省级教学名师1人,校级教学名师1人),占校内专任教 ...查看


  • 中山大学大学英语学习指南
  • 中山大学外语教学中心 中山大学外语协会 金风送爽.层林叠翠,中山大学 又迎来了新一届的同学们.新同学步 入新环境,将面临许多新情况.新困 惑,其中当然也包括大学英语学习方 面的问题.这里我们谨就与我校大学 英语教学和学习有关的一些问题作 简 ...查看


  • 保研的要求
  • 江南大学校长办公室文件 江大校办[2014]9号 关于印发<江南大学推荐优秀应届本科 毕业生免试攻读硕士学位研究生 实施办法(试行)>的通知 各学院(部).机关各部门.各直属单位: <江南大学推荐优秀应届本科毕业生免试攻读 ...查看


  • 免试攻读硕士学位研究生工作的暂行办法
  • 合肥工业大学推荐2011届优秀本科毕业生 免试攻读硕士学位研究生工作的暂行办法 根据教育部<关于做好2011年推荐优秀应届本科毕业生免试攻读硕士学位研究生工作的通知>(教学司[2010]24号)精神结合我校实际情况,特制定本暂行 ...查看


  • 大学英语]课程介绍
  • <大学英语>课程介绍 一.教学对象 中国传媒大学非外语专业本科生. 二.教学目标 大学英语的教学目标是培养学生的英语综合应用能力,特别是听说能力,使他们在今后工作和社会交往中能用英语有效地进行口头和书面的信息交流,同时增强其自主 ...查看


  • 第八届自考在线咨询问题集
  • 第八届自考在线咨询问题集 上海市自考办 1-1 问:老师你好,我从上海转出2门成绩去江苏,以后我还能转回来吗? 答:如果你在上海继续参加考试,可以不需要转回来.直接继续考试就行. 1-2 问:老师,自学考是没有时间有效期的是吗?之前取得的单 ...查看


  • 安徽广播电视大学开放教育免修免考及开放教育
  • 安徽广播电视大学开放教育免修免考及开放教育 本科(专科起点) 全国网考免考管理办法 为加强全省电大免修免考课程管理, 促进广播电视大学教育与其它高等教育的 相互沟通, 推进电大开放教育的深入开展, 根据<中央广播电视大学免修免考课程管 ...查看


  • 浙江工商大学学生先进个人评选办法 (1)
  • 浙江工商大学学生先进个人评选办法 浙商大学„2015‟218号 第一条 为了全面贯彻执行党的教育方针和<普通高等学校学生管理规定>,促进学生全面发展,培育学生的创新精神,充分发展学生的个性,不断提高学生的综合素质,培养与造就中国 ...查看


热门内容