_从PISA编码看高考网上阅卷

从PISA编码看高考网上阅卷*

[摘

蕾佟威

要]高考网上阅卷已经取得了长足的进步,但同时也存在分省阅卷标准不统一、主观题分数离散程

度低和对标准答案以外的考生作答处理方式单一等一些尚未完全解决的问题。PISA作为世界范围内有重要影响力的考试评价项目,在阅卷理念、编码技术和组织管理模式上有重大创新。通过研究PISA2015计算机化考试阅卷编码做法,对我国高考阅卷提出了从评分到编码的观念转变、在国家层面监控各省评卷质量、充分利用信息技术挖掘网上评卷潜在优势等建议。[关键词]网上阅卷;高考;PISA;编码;评分

[中图分类号]G424.74[文献标识码]A[文章编号]1009-718X(2016)04-0033-06

一、高考网上阅卷的成就和存在的问题

网上阅卷指以计算机网络技术和电子扫描技术为依托,实现客观题由计算机自动给分,主观题由评卷人员在计算机屏幕上通过阅读分析考生答案的图片给分的一种现代计算机阅卷系统。网上阅卷较传统的在学生考卷上打分的方式具有无可比拟的技术优势,最重要的一点就是使多人同时背靠背评分成为可能,在此基础上依据统计和测量理论,还可以实时监控不同评分员之间和相同评分员自身在不同时间点的评卷一致性。高考网上阅卷自21世纪初开始出现,凭借其更加科学和高效的特点,发展至今已成为我国高考阅卷的唯一方式。[1]高考网上阅卷采取了一系列技术措施,有效地控制了评分误差,保障了考生成绩的准确度,提高了评卷效率。王佟

蕾威

教育部考试中心PISA2015国家中心

副研究员

博士

[1**********]4

当然,作为一种新生事物,高考阅卷也不可避免地存在一些尚待解决的问题。

第一,高考成绩除了其重要的选拔功能以外,也是各省市教育质量的重要体现。由于高考阅卷分别在各个省份独立完成,各省高考评卷标准的差异不可避免地在一定程度上影响各省的高考分数。2016年,我国将会有26个省(直辖市、自治区)使用由教育部考试中心提供的全国卷,使用相同试卷的各省如果在主观题阅卷环节中,执行不同的宽严程度标准,[2]就会对全国卷的信、效度产生影响和误导的结论。如何确保各省的阅卷标准统一是高考网上阅卷所面临的一个重要议题。

第二,高考网上阅卷系统设计了专门的程序来降低评分员在主观题上的评分误差。目前较为普遍的做法是由两位评分员对同一考生作答进行评分,并设置双评差值阈限,当双评差值达到或超过双评

*本文为全国教育科学“十二五”规划2013年度教育部重点课题“PISA与我国高考的能力比较研究”的(DHA130258)成果。

E

D

U

C

A

T

I

O

N

A

L

S

C

I

E

N

C

E

R

E

S

E

A

R

C

H

33

阈限时,将该题交由第三位评分员评分。阈限的设置在一定程度上保障了评分员评卷的准确性,降低了评分误差,但同时也有可能会造成分数分布区间较窄、离散程度低等情况。[3]评分员为保障双评差值不超过阈限,往往会在评卷过程中选择一种较为折中的分数降低评分超出阈限的风险,这就可能会对考试命题意图的体现和分数的公平性产生一定影响。

第三,主观题答案的一个显著特点是考生答案的多样性和不可控性。在每年有限的高考命题时间里,命题专家确保设计的题目精密细致已实属不易,要照顾到主观题答案所有可能的方方面面,更是非常困难,甚至不太现实。这就是著名的“两圈论”理论。[4]“两圈论”认为,命题人员设想的答案为一个集合,考生的答案也构成一个集合,通常情况下这两个集合只会有一部分重合。也就是说,考生的答案多样性会远远超出命题人员所考虑的范围。“两圈论”在每个考试的阅卷评分中都是不可避免的,但是如何确保考生丰富多样的答案能够得到合理的对待和划分,鼓励考生的创造性思维,则考验阅卷评分管理者的智慧。

第四,任何一种测试都具有评价的功能,高考也不例外。高考作为大学入学考试,除了其最为重要的选拔功能之外,还应该凭借其庞大的数据,对教育教学起到反馈和评价作用。基于信息技术的大数据挖掘分析,无论从政策支持还是理论研究方面,均得到各行各业的高度关注。主观题阅卷作为高考网上阅卷的一个重要组成,其评卷结果目前还只是停留在给学生一个原始的分数,而且这样的分数所反馈出来的信息非常有限,不仅不能为改善命题提供重要参考数据,也不能服务于提升教学质量评价和教育教学。所以,如何借助科学技术手段,改善阅卷评分机制,利用阅卷平台收集海量数据信息,是高考网上阅卷在新的时代背景下亟须探索和实践的重要课题。

解决和处理好这些方面的问题,既是对社会舆论的重要回应,也是教育考试公平的迫切需求。高考的网上阅卷与传统的教师直接面对试卷打分相比,是一种完全不同的工作方式,它虽然能极大地

提高工作效率,也必然会产生新的问题。为此,管理者和研究者有必要研究这种因信息技术飞速发展而出现的新生事物,形成创新的阅卷理念,积累同时服务于选拔和促进教育的评分模型和技术,[5]并探索建立新的管理模式。

学生能力国际评价项目(ProgrammeforInterna-tionalStudentAssessment,简称PISA)自从由经济合作与发展组织(TheOrganizationforEconomicCo-op-erationandDevelopment,简称OECD)发起以来,在短短的十几年的时间里,已成为大规模教育考试和评价的标杆和典范。PISA2015在全球七十多个国家和地区实施,客观题完全通过计算机自动评分,主观题则是由各国分别组织阅卷,计算机系统将学生的作答派发到阅卷编码员的计算机终端中进行人工评分。笔者从2006年起,连续主持了四轮PISA项目在我国的大规模实施,其中包括阅卷环节。本文的目的是通过研究和分析PISA的阅卷理念、阅卷技术和管理模式,为我国高考网上阅卷下一步的发展提供借鉴和思路。

二、PISA编码的主要特点

(一)从评分到编码的理念变化

传统上,我国和国外都习惯使用的与阅卷相关的名词是评分(scoring/grading/marking)。而PISA的词汇表里没有评分这个术语,取而代之的是编码(coding)。

这是一个巨大的理念上的变化。从词义上看,评分意味着对考生的作答赋予一个数值,通过数值大小反映作答的正确和完美程度。其思维方式是一维的;编码则认为考生的作答可以被分配到不同的集合中,编码并不排斥分数,在大多数情况下也会赋值,但并不是必然地将所有作答分出高低大小,它关注和给出的信息更多,除数值外,还可以采用其他准则对作答进行分类,这些准则可以是不同于数值量表的名义量表。编码的思维方式是多维的。

传统考试评分的前提和依据是标准答案。PISA没有标准答案这一说法,对每一道题目,PISA提供编码指南(codingguide)。编码指南是PISA

编码

I

E

N

C

E

R

E

S

E

A

R

C

H

34

EDUCATIONALSC

工作的核心资料。在编码指南中,每一个题目的编码结果都由四个基本要素组成:分数等级标签(creditlabels)、代码编号(numericalcode)、代码描述(description)和基本样例(examples)。

1.分数等级标签

分数等级标签通常包括“满分”和“零分”(有的题目还包括介于两者之间的“部分得分”),不同于传统意义上的“正确”和“不正确”。这是与我们传统考试评分的一个重要区别。PISA编码作出这样的设计是基于两个方面的原因:(1)一些题目本身并没有正确答案,编码主要是建立在学生对文章或所关注话题的理解程度上。(2)“满分”的答案也不一定是完全正确或者完美的答案。分数等级的划分更多的是根据学生在多大程度上能够证明自己具有回答该问题的能力。从生活经验、科学认知和哲学逻辑的角度也确实如此:何为“正确”,本身就是一个很难确定的问题。一个问题的“正确答案”可能随着科学技术和人类认知的发展会被另一个“正确答案”所取代。对于学生而言,重要的是如何准确地理解问题,并找到合理的解决方法。如果一味地去追求标准答案,学生的思维和创造力在潜移默化之中会被限制和禁锢。

2.代码编号

代码编号即为分数等级所对应的代码,是由编码员根据学生作答所赋予的。PISA主观题中,有的题目分数等级仅包括“满分”和“零分”,则通常情况下“满分”代码为1,“零分”代码为0;有的主观题分数等级还包括“部分得分”,则“满分”代码为2,“部分得分”代码为1,“零分”代码为0。PISA主观题中还包括一些题目为双位编码。第一位代码表示答案的等级,第二位代码用来区分同一等级中不同类型的答案。双位编码的设置通常会出现在题目作答比较复杂的情况下,一方面可以收集学生作答中的更多的信息,包括不同的理解、常见的错误和解决问题的不同方法;另一方面使代码的呈现更具有结构性,易于认知层面的统计分析。例如,在一道PISA科学题目中,仅仅是“零分”等级上,代码就包括四种:“01”、“02”、

E

D

U

C

A

T

I

O

N

A

L

S

C

I

“03”和“04”。这就要求编码人员在分析学生的作答过程中,充分理解学生回答问题的思路和方式,体现了对于每个学生的每个作答的尊重,也收集了有关学生思维品质和作答路径的数据。

除此之外,代码编号还包括特殊代码“9”,用于标记学生没有回答该题目,即在该题目上作答空白且没有任何作答痕迹的情况。该代码严格区别于错误答案代码“0”。PISA认为学生“没有回答”和“零分”在评价学生能力上是有区别的。“没有回答”可能是由于没有时间作答,通过数据可知若大批学生没有时间做完整卷,可反馈给命题人员缩减题目数量,减轻考生不必要的精神紧张;也可能是学生没有理解该题目而直接进入了下一题,通过反馈给命题人员以便确定题目的表述是否清晰,是否会影响考生对题意的理解。“零分”则是表明学生有回答的痕迹,学生尝试去回答但没有成功。

PISA在对数据初始分析之后,还会对题目的分数等级进行再一次的判定。若统计结果表明在不同分数等级上的学生能力没有显著的差异,PISA会把不同的分数等级合并统一成一个分数等级。如果可以把编码指南中分数等级的划分说成是先验的,那么后期基于数据的再划分则是后验的。这种先验和后验相结合的方式,使得PISA在分数等级的划分上更具科学性和合理性。

(二)以学生为本的编码技术

PISA要求主观题编码人员在编码过程中尊重学生个性,关注学生所有合理的认识和想法,提出了有利推断等一系列编码原则。同时,PISA也非常注意区分学生想法的具体指向,避免笼统和口号式的答题。这就要求每一位编码员能够“转换”角色,站在学生的立场去感受和理解学生多样化、个性化的表达。PISA这种以学生为本的编码原则具体表现在以下几方面。

1.充分理解学生的作答思路,进行有利推断PISA强调编码员必须通过判断去决定代码之间的区别以及某个特定的代码的边界条件。编码员的判断应该建立在对每一个学生是否能够回答该问题的最佳评估的基础之上。同时依据有利推断的原

E

N

C

E

R

E

S

E

A

R

C

H

35

则,在学生回答思路出现比较含糊意思的情形下能从有利学生的角度进行“无罪辩护”。编码员必须在考生作答的字里行间去体会考生的思维逻辑,避免使用缺失模型(deficitmodel),即不要因为一点点的小错误就随便地去扣分。在传统的中、高考阅卷过程中,阅卷教师很自然地会站在居高临下的角度对考生作答进行“挑错”;在PISA编码时,编码员的身份则是从负责宣判的“法官”变成了负责辩护的“律师”。

2.忽略微差错,发现闪光点

PISA测试并不是一个文法测试,编码员应该忽略考生作答中的拼写和语法错误,除非这些错误严重模糊了学生的表述。例如,编码员遇到的很多学生作答中存在错别字,那么就需要通过语义之间的结构和关系对这些学生的思路进行还原。还有个别学生在进行计算机测试时没有正确使用汉字输入,而是全部拼音,有的拼音之间甚至没有任何的分隔符号,看起来就好像是出现的乱码一样。出现这样的情况可能是由于学生当时无法切换输入法或操作失误造成。这需要经过编码员和编码培训专家共同“识别”,“破译”学生作答思路,并给予适合的代码。

3.区分矛盾要素和不相关要素

PISA对学生的作答要素进行了明确的划分。矛盾要素指在与问题相关的要素中,一部分是符合“满分”或“部分得分”的回答,一部分却是“零分”的回答。在该情况下,PISA认为学生的回答出现了矛盾,在逻辑和判断上都是不予接受的。这样的回答应该被判定为“零分”。这就要求编码员在分析学生的作答时,不能一味去“踩点”,同时也要关注答案的其他部分,在总体上把握学生的作答思路。不相关要素指的是学生作答中与问题无关的部分。编码员在对整个答案进行编码时,可以忽略这部分内容。最常见的例子是学生写出的作答比得分所要求的内容更多。那么这些多余的无关信息,无论在科学性上是否正确,都应不予考虑。

(三)确保标准一致性的组织架构

在PISA编码过程中,或者在其他测试阅卷过程中,编码员都不可避免地会遇到难以评判或者模

棱两可的学生作答。如何科学、及时、有效地处理这些学生作答呢?PISA有着三个层次的解决步骤。[6]

步骤一,严格忠实于编码指南。编码指南是阅卷编码过程中最重要的参考资料,是每一个主观题的评判依据。在编码员不清楚如何评判学生作答的情况下,不要轻易地给出代码,更不能主观臆断、自由发挥。首先要做的就是再次理解编码指南,体会编码指南中对于该题目的描述和考查的意图,剖析学生作答并与编码指南进行严格比对。

步骤二,咨询编码培训专家。如果在步骤一中问题仍然无法得到解答,编码员需要直接咨询本国的编码培训专家。特别地,PISA2015在实现机考阅卷编码之后,对于这些存疑的学生作答,编码员可以在该作答的编码界面中点击“延迟处理”按钮提交后,直接继续其他学生作答的编码,而不需要在此作答中等待或草率地给出编码。这是信息化技术的一个具体体现。

步骤三,国际咨询和仲裁。在该步骤中,本国的PISA国家中心需要把该学生作答准确地用英文进行表述,通过在线国际咨询平台发送给该领域的国际专家组。国际专家组通常会在次日提出该问题的解决方案和评判结果。在PISA阅卷编码过程中,各国PISA国家中心通过国际平台进行学生作答咨询,一方面可以获取解决方案,同时也能进一步丰富国际样例库。

(四)中央化的质量监控和分区化的编码组织相结合的管理模式

第一,国际方面。为保障参与PISA2015正式测试的不同国家与地区之间的一致性能够进行比较和分析,PISA2015专门在每个测试领域的编码员中设置了双语编码员。双语编码员必须精通本国测试语言和英文。双语编码员会在自己需要编码的每个主观题中被随机地分配到一些国际样例库中的英文学生作答。这些英文学生作答在不同的国家和地区之间是相同的,PISA以此来比较和监控不同国家和地区之间的一致性。

第二,本国实施方面。PISA2015采用了严格的多评模式,特别是科学测试领域甚至达到了8

评。

I

E

N

C

E

R

E

S

E

A

R

C

H

36

EDUCATIONALSC

即,每一个主观题上所有学生的作答分配给8名经过严格培训的编码员;在每个编码员所分配的学生作答中,均含有100个相同的学生作答,这些相同的学生作答随机地出现在每位编码员的文档之中。PISA的一致性检验便是基于不同的编码员在这些相同的学生作答上的反应并采用评分者内部一致性(inter-rateagreement)模型得出。评分者内部一致性是一种百分比一致性模型,该模型以8位编码员在所有相同作答上的编码作为参照,计算的是每一个编码员与其他编码员的一致编码的数量占总编码数量的百分比。与相关法和概化理论相比,一致性百分比更为便捷和高效,可以实时监控每一位编码员的一致性百分比。[7]

(1)该地海拔较高(3000米以上),氧气含量偏低,需带氧气袋(瓶)、抗缺氧药品等;(2)该地气压偏低,水的沸点低,需带高压锅等;(3)该地空气较稀薄,太阳辐射强,需带防晒物品;(4)该地气温偏低,昼夜温差大,需备防寒衣物;(5)该区域多大风,需备防风帐篷等。答案总分为10分,答对每个要点得2分。

如果采用双位编码的方式,该题目的编码指南可以这样设计:海拔较高(3000米以上),氧气含量偏低,需带氧气袋(瓶)、抗缺氧药品等,分数代码为2,类别代码为1;气压偏低,水的沸点低,需带高压锅等,分数代码为2,类别代码为2;空气较稀薄,太阳辐射强,需带防晒物品,分数代码为2,类别代码为3;气温偏低,昼夜温差大,需备防寒衣物,分数代码为2,类别代码为4;此时该区域多大风,需备防风帐篷等,分数代码为2,类别代码为5;试卷纸张破损、扫描不清楚等由于技术原因导致的无法阅卷,分数代码为0,类别代码为8;空白作答,即学生在答题区域没有任何作答痕迹,分数代码为0,类别代码为9;完全错误作答,分数代码为0,类别代码为0。

双位编码体现了一种良好的诊断性质量监控的评价模式,较单维的评分方法更能充分利用计算机技术的优势。从上面的例子可以看出,双位编码可以极大地丰富高考数据提供的信息,为命题和教育教学提供重要的反馈信息。它不仅给出一个分数等级,还能对学生表现进行分类,如果说“因材施教”是发挥学生潜能的最好方式,那么分类编码评价,则是确定学生属于何种“材”的有效手段。

(二)在不同省份设置共同作答组,监控各省份的阅卷质量

PISA为防止各国阅卷编码标准把握尺度不统一,通过为阅卷编码员提供一定比例的共同的学生作答,从而来监测编码一致性。

根据《国务院关于深化考试招生制度改革的实施意见》,我国高考从2015年起将逐步增加使用全国统一试卷的地区。长期以来,我国高考的阅卷评分是以省为单位的,国家层面基本上没有具体的管

I

E

N

C

E

R

E

S

E

A

R

C

H

三、高考网上阅卷的可能借鉴

从根本上来说,PISA和高考毕竟是两种不同的考试,在考试理念和考试方法上有着很大的区别。但本文前半部分所介绍的PISA阅卷编码的理念和做法,无疑可以为我国高考网上阅卷提供一些改进的思路和方向。

(一)理念上自传统的评分提升到现代的编码笔者十余年来四次主持PISA编码在中国的组织工作,深深感到,“评分”与“编码”两字之差绝不仅仅是咬文嚼字,其背后隐藏着深刻的观念上的差别。

我国各级考试评分目前主要是给出学生一个单纯的分数。事实上,考生对题目的反应蕴藏着丰富的信息,评分员充分挖掘这些信息,不但能增加选拔的准确性和有效性,还能充分发挥考试对于教育教学的反馈和评价功能。如果我们借鉴PISA的做法,在高考阅卷评分中,分类细化,设置多位代码,评分员除了给出考生的原始分数外,还可以根据学生作答类别等给出相应的类别代码,那么这种编码不但可增加评分的准确性,更能起到分数之外的积极作用。

例如,2014年文科综合新课标1卷一道“旅游地理”题目要求考生回答为应对旅游地自然环境需要携带哪些生活用品。该题目的参考答案要点为:

E

D

U

C

A

T

I

O

N

A

L

S

C

37

理措施。借鉴PISA的做法,在高考使用全国统一试卷的地区,教育部考试中心完全应该也可能建立类似于PISA的管理模式,通过设立共同作答组,监控各省份的阅卷质量。具体措施如下:首先,在阅卷开始前,组织阅卷专家在各个省份抽取一定数量的学生作答作为试验样本。这些学生作答样本必须经过阅卷专家的仔细讨论和研究,确定一个最为合适的得分。学生样本同时需要等比例涵盖到该主观题的各个分数段。这样我们就建立了各个省份每名评分员的监控标准。然后将这些样本通过计算机系统自动派发给每名评分员。我们可以通过比较不同省份、不同评分员在这些共同作答上的评分与标准的差异来监控和判断各省份的评分准确性和标准掌握的一致性。

同样以上述“旅游地理”题为例。我们可以在各省份的学生作答中由阅卷专家精挑细选出若干个典型作答作为标准样本,然后把这些样本穿插在分配给每个评分员的学生作答之中。辅以统计分析手段,国家就能够监控各个省份在评卷过程中的一致性和宽严程度,从而有效防止分数掺水和过分严苛。同时,对每个评分员而言,除了接受双评监控,还需要面对省际共同样本这种“标准参照”的检验。两个双评编码员可能通过博弈选择一种较为折中的分数降低评分超出阈限的风险,但是在“标准参照”下,这种现象可以得到有效的防治。

(三)充分借助信息技术,更大程度发挥网上阅卷的潜在优势

阅卷“两圈论”虽然理论上不可避免,但在网上阅卷的背景下可以通过新的方式尝试解决。PISA规定阅卷编码员在遇到较难评判或者模棱两可的答案时,可以通过编码界面中的特殊功能键进行提交,由阅卷编码培训专家讨论,给出合理的评判,管理者同时会把此类作答的判断标准对所有编码员进行及时发布,这就提供了一种对付标准不同的新答案的机制。类似地,高考可以在评卷系统中设置“延迟处理”功能,评分员在发现难以评判的答案时,通过“延迟处理”把问题实时提交给阅卷专家组。阅卷专家组经过研究讨论之后,再把处理方案

反馈给评分员,同时向所有评分员发布补充评判标准。这样可以避免评分员在遇到问题时主观臆断,也避免了评分员为减少评卷误差而给出“保险分”,更大程度地保证了所有评分员评判标准一致,提高了阅卷效率。这对于以选拔功能为主的高考来说非常必要,对于保证考试公平性也有着重要意义。

2013年山东省高考文科综合试卷的第31题是一道政治题,第一天阅卷之后,就在参考答案基础上补充了30种其他答案,第二天又补充了20种答案。这样的补充反映了教学一线的实际情况,也是命题专家在参考答案和评分标准中未涉及到的内容。上文举例的“旅游地理”题目中,当出现标准参考答案以外的合理答案时,在传统的阅卷工作中,依据标准答案进行“踩点”式评分会很轻易忽略这样的答案。借助网上阅卷的技术优势,我们可以及时改进该题目的评判标准,及时补充完善编码指南,并对此前已经评阅过的试卷进行修正。

创新是发展的重要驱动力,创新思维的培养在教育教学中正越来越受重视。无论是PISA还是高考,都特别注重对这方面的考查和评价。PISA认知领域框架设计强调情境的重要性,注重学生在测试过程中所产生的丰富多彩、个性化的创造性表现。主观题的设置为学生提供了足够的思考和表达的空间,让每个学生能够不受“限制”地回答,能够在“自由”的氛围中表达自己的思想和真实想法。我国高考每年都有几百万的考生参加,茫茫答案中更不知有多少繁星般闪烁的学生智慧亮点,如果阅卷是用标准答案去限制和固定学生的思维,那将是极其悲惨和可怕的场面;如果我们发现和鼓励学生的闪光点,则不仅能够鼓励考生的创新思维,更能够激发一线教师敢于教学创新的热情,形成教育、教学、考试的良性互动。再以2013年山东省高考为例。对于高考物理科第22题而言,较为常规的解法是使用牛顿第二定律求解,这种解法相当复杂、费时费力,还容易出现计算的错误;而另外一种解法是巧用动量守恒求解,可以快速得到答

案。在我们通常的阅卷过程中,采用不同解法的考

(下转第45页)

I

E

N

C

E

R

E

S

E

A

R

C

H

38

EDUCATIONALSC

容、鼓励的小组氛围能够使学生没有顾忌地说出自己的想法,促进其发散性思维发展。

(三)组织合作学习培养学生的创造力本研究认为,合作学习能更好地培养学生的创造力,并且合作学习的效果是可干预的。第一,采用异质分组。从“三种类型合作学习小组问题解决水平的比较”部分的数据结果我们可以发现,异质组和高分同质组具有相似的问题解决水平,且都显著高于低分同质组,那么,最经济、最现实的分组方式应为异质分组;另外,异质分组有利于建构交互式知识系统,不同背景的学生可以带来范围更广的知识,有助于交互知识系统的建构。第二,培育健康的小组氛围。小组氛围在小组合作过程中逐渐形成,它以一定的人际交往技巧为基础,如普通的礼貌、尊重等;但它又旨在问题解决,因此,能够促进小组氛围的人际沟通技巧主要是以问题为中心的讨论,即针对问题的肯定、评价、建议等。第三,理解认知涌现的过程,使合作学习张弛有度。合作学习在解决开放问题时是一个头脑风暴的过程,即学生的认知不断涌现。认知涌现具有原型启发和认知精致两种过程。原型启发过程快且轻松,

(上接第38页)

认知精致阶段则会伴有挑剔和评价。充分认知这一点不仅可以使学生对问题解决过程有所把握,同时能够有助于克服学生在认知精致阶段中的懊恼情绪,提升小组氛围,进而促进问题解决。[12]

[注释]

[1]王坦.论合作学习的基本理念[J].教育研究,2002,(2).[2]黄荣怀,刘黄玲子.协作学习系统观[J].现代教育技术,

2001,(1).

[3]王静,陈英和.合作学习小组的认知风格对其问题解决的影

响[J].心理发展与教育,2008,(2).

[4]迈克尔·A.豪格,多米尼克·阿布拉姆斯.社会认同过程[M].

高明华,译.北京:中国人民大学出版社,2010:9-37.[5][6]张雷,雷雳,郭伯良.多层线性模型应用[M].北京:教育科

学出版社,2005:6-8、63.

[7]方杰,张敏强,邱皓政.基于阶层线性理论的多层级中介效

应[J].心理科学进展,2010,(8).

[8]张文新,谷传华.创造力发展心理学[M].合肥:安徽教育出

版社,2004:88-90.

[9][12]王静.合作学习在促进学生生态多样性认知中的作

用——基于认知加工的视角[J].中国校外教育,2015,(3).[10]Jobnson,D.W.,&Jobnson,R.T.合作学习[M].伍新春,郑

秋,张洁,译.北京:北京师范大学出版社,2004:85-98.[11]Amabile,T.M.,Conti,R.,Coon,H.,etal.Assessingthework

environmentforcreativity[J].AcademyofManagementJour-nal,1996,39(5):1154-1184.

(责任编辑:韩梅)

[注释]

[1]新华网.2015全国高考阅卷工作开始,全国所有省份实现网

上阅卷[EB/OL].http://news.xinhuanet.com/video/2015-06/10/c_127900012.htm.

[2]陈志国,芮南.高考作文网上阅卷双评过程中的质量监控

[J].中学语文教学,2009,(6).

[3]彭恒利,俞韫烨.主观性试题网上评阅趋中评分控制研究初

探[J].中国考试,2013,(6);俞韫烨,谢小庆.基于多面Rasch模型的作文网上阅卷“趋中评分”判定研究[J].中国考试,2012,(1).

[4]Marton,F.,&Saljo,R.Onqualitativedifferencesinlearning

[J].EducationalPsychology,1976,(46):4-11.

[5]王蕾,张文静.PISA中国试测研究的评分者效应分析对高考

网上阅卷的启示[J].统计与信息论坛,2012,(6).

[6]OECD.PISA2012TechnicalReport[EB/OL].http://www.oecd.org/

pisa/pisaproducts.

[7]孙晓敏,张厚粲.表现性评价中评分者信度估计方法的比较

研究——从相关法、百分比法到概化理论[J].心理科学,2005,(28);徐晓峰,刘勇.评分者内部一致性的研究和应用[J].心理科学,2007,(30).

生只会得到相同的分数。但是,如果进行双位编码的设计,我们或许就可以区别出这种高阶的思维品质和思维过程,也完全应该对采用创新解法的考生给予额外的分数奖励。

因此,新一代的高考阅卷系统应该基于编码的理念,提供一个从国家到省两级互动的信息平台,实现信息共享、分类细化评分、培训咨询、实时质量监控、评分员评价和管理、数据挖掘和反馈等多种功能。借鉴PISA编码的思路和方法,依托强大的信息技术手段,我国高考网上阅卷一定可以在已经取得的巨大进步的基础上再上新台阶。当然,我们所讨论的问题主要聚焦在设计和方法的改进方面,对于各级考试机构所反映的阅卷时间短、阅卷教师压力大等社会和政策问题,还需要相应的体制机制乃至制度创新。

E

D

U

C

A

T

I

O

N

A

L

S

C

I

(责任编辑:金

E

N

C

E

R

E

S

E

A

R

C

平)

H

45

从PISA编码看高考网上阅卷*

[摘

蕾佟威

要]高考网上阅卷已经取得了长足的进步,但同时也存在分省阅卷标准不统一、主观题分数离散程

度低和对标准答案以外的考生作答处理方式单一等一些尚未完全解决的问题。PISA作为世界范围内有重要影响力的考试评价项目,在阅卷理念、编码技术和组织管理模式上有重大创新。通过研究PISA2015计算机化考试阅卷编码做法,对我国高考阅卷提出了从评分到编码的观念转变、在国家层面监控各省评卷质量、充分利用信息技术挖掘网上评卷潜在优势等建议。[关键词]网上阅卷;高考;PISA;编码;评分

[中图分类号]G424.74[文献标识码]A[文章编号]1009-718X(2016)04-0033-06

一、高考网上阅卷的成就和存在的问题

网上阅卷指以计算机网络技术和电子扫描技术为依托,实现客观题由计算机自动给分,主观题由评卷人员在计算机屏幕上通过阅读分析考生答案的图片给分的一种现代计算机阅卷系统。网上阅卷较传统的在学生考卷上打分的方式具有无可比拟的技术优势,最重要的一点就是使多人同时背靠背评分成为可能,在此基础上依据统计和测量理论,还可以实时监控不同评分员之间和相同评分员自身在不同时间点的评卷一致性。高考网上阅卷自21世纪初开始出现,凭借其更加科学和高效的特点,发展至今已成为我国高考阅卷的唯一方式。[1]高考网上阅卷采取了一系列技术措施,有效地控制了评分误差,保障了考生成绩的准确度,提高了评卷效率。王佟

蕾威

教育部考试中心PISA2015国家中心

副研究员

博士

[1**********]4

当然,作为一种新生事物,高考阅卷也不可避免地存在一些尚待解决的问题。

第一,高考成绩除了其重要的选拔功能以外,也是各省市教育质量的重要体现。由于高考阅卷分别在各个省份独立完成,各省高考评卷标准的差异不可避免地在一定程度上影响各省的高考分数。2016年,我国将会有26个省(直辖市、自治区)使用由教育部考试中心提供的全国卷,使用相同试卷的各省如果在主观题阅卷环节中,执行不同的宽严程度标准,[2]就会对全国卷的信、效度产生影响和误导的结论。如何确保各省的阅卷标准统一是高考网上阅卷所面临的一个重要议题。

第二,高考网上阅卷系统设计了专门的程序来降低评分员在主观题上的评分误差。目前较为普遍的做法是由两位评分员对同一考生作答进行评分,并设置双评差值阈限,当双评差值达到或超过双评

*本文为全国教育科学“十二五”规划2013年度教育部重点课题“PISA与我国高考的能力比较研究”的(DHA130258)成果。

E

D

U

C

A

T

I

O

N

A

L

S

C

I

E

N

C

E

R

E

S

E

A

R

C

H

33

阈限时,将该题交由第三位评分员评分。阈限的设置在一定程度上保障了评分员评卷的准确性,降低了评分误差,但同时也有可能会造成分数分布区间较窄、离散程度低等情况。[3]评分员为保障双评差值不超过阈限,往往会在评卷过程中选择一种较为折中的分数降低评分超出阈限的风险,这就可能会对考试命题意图的体现和分数的公平性产生一定影响。

第三,主观题答案的一个显著特点是考生答案的多样性和不可控性。在每年有限的高考命题时间里,命题专家确保设计的题目精密细致已实属不易,要照顾到主观题答案所有可能的方方面面,更是非常困难,甚至不太现实。这就是著名的“两圈论”理论。[4]“两圈论”认为,命题人员设想的答案为一个集合,考生的答案也构成一个集合,通常情况下这两个集合只会有一部分重合。也就是说,考生的答案多样性会远远超出命题人员所考虑的范围。“两圈论”在每个考试的阅卷评分中都是不可避免的,但是如何确保考生丰富多样的答案能够得到合理的对待和划分,鼓励考生的创造性思维,则考验阅卷评分管理者的智慧。

第四,任何一种测试都具有评价的功能,高考也不例外。高考作为大学入学考试,除了其最为重要的选拔功能之外,还应该凭借其庞大的数据,对教育教学起到反馈和评价作用。基于信息技术的大数据挖掘分析,无论从政策支持还是理论研究方面,均得到各行各业的高度关注。主观题阅卷作为高考网上阅卷的一个重要组成,其评卷结果目前还只是停留在给学生一个原始的分数,而且这样的分数所反馈出来的信息非常有限,不仅不能为改善命题提供重要参考数据,也不能服务于提升教学质量评价和教育教学。所以,如何借助科学技术手段,改善阅卷评分机制,利用阅卷平台收集海量数据信息,是高考网上阅卷在新的时代背景下亟须探索和实践的重要课题。

解决和处理好这些方面的问题,既是对社会舆论的重要回应,也是教育考试公平的迫切需求。高考的网上阅卷与传统的教师直接面对试卷打分相比,是一种完全不同的工作方式,它虽然能极大地

提高工作效率,也必然会产生新的问题。为此,管理者和研究者有必要研究这种因信息技术飞速发展而出现的新生事物,形成创新的阅卷理念,积累同时服务于选拔和促进教育的评分模型和技术,[5]并探索建立新的管理模式。

学生能力国际评价项目(ProgrammeforInterna-tionalStudentAssessment,简称PISA)自从由经济合作与发展组织(TheOrganizationforEconomicCo-op-erationandDevelopment,简称OECD)发起以来,在短短的十几年的时间里,已成为大规模教育考试和评价的标杆和典范。PISA2015在全球七十多个国家和地区实施,客观题完全通过计算机自动评分,主观题则是由各国分别组织阅卷,计算机系统将学生的作答派发到阅卷编码员的计算机终端中进行人工评分。笔者从2006年起,连续主持了四轮PISA项目在我国的大规模实施,其中包括阅卷环节。本文的目的是通过研究和分析PISA的阅卷理念、阅卷技术和管理模式,为我国高考网上阅卷下一步的发展提供借鉴和思路。

二、PISA编码的主要特点

(一)从评分到编码的理念变化

传统上,我国和国外都习惯使用的与阅卷相关的名词是评分(scoring/grading/marking)。而PISA的词汇表里没有评分这个术语,取而代之的是编码(coding)。

这是一个巨大的理念上的变化。从词义上看,评分意味着对考生的作答赋予一个数值,通过数值大小反映作答的正确和完美程度。其思维方式是一维的;编码则认为考生的作答可以被分配到不同的集合中,编码并不排斥分数,在大多数情况下也会赋值,但并不是必然地将所有作答分出高低大小,它关注和给出的信息更多,除数值外,还可以采用其他准则对作答进行分类,这些准则可以是不同于数值量表的名义量表。编码的思维方式是多维的。

传统考试评分的前提和依据是标准答案。PISA没有标准答案这一说法,对每一道题目,PISA提供编码指南(codingguide)。编码指南是PISA

编码

I

E

N

C

E

R

E

S

E

A

R

C

H

34

EDUCATIONALSC

工作的核心资料。在编码指南中,每一个题目的编码结果都由四个基本要素组成:分数等级标签(creditlabels)、代码编号(numericalcode)、代码描述(description)和基本样例(examples)。

1.分数等级标签

分数等级标签通常包括“满分”和“零分”(有的题目还包括介于两者之间的“部分得分”),不同于传统意义上的“正确”和“不正确”。这是与我们传统考试评分的一个重要区别。PISA编码作出这样的设计是基于两个方面的原因:(1)一些题目本身并没有正确答案,编码主要是建立在学生对文章或所关注话题的理解程度上。(2)“满分”的答案也不一定是完全正确或者完美的答案。分数等级的划分更多的是根据学生在多大程度上能够证明自己具有回答该问题的能力。从生活经验、科学认知和哲学逻辑的角度也确实如此:何为“正确”,本身就是一个很难确定的问题。一个问题的“正确答案”可能随着科学技术和人类认知的发展会被另一个“正确答案”所取代。对于学生而言,重要的是如何准确地理解问题,并找到合理的解决方法。如果一味地去追求标准答案,学生的思维和创造力在潜移默化之中会被限制和禁锢。

2.代码编号

代码编号即为分数等级所对应的代码,是由编码员根据学生作答所赋予的。PISA主观题中,有的题目分数等级仅包括“满分”和“零分”,则通常情况下“满分”代码为1,“零分”代码为0;有的主观题分数等级还包括“部分得分”,则“满分”代码为2,“部分得分”代码为1,“零分”代码为0。PISA主观题中还包括一些题目为双位编码。第一位代码表示答案的等级,第二位代码用来区分同一等级中不同类型的答案。双位编码的设置通常会出现在题目作答比较复杂的情况下,一方面可以收集学生作答中的更多的信息,包括不同的理解、常见的错误和解决问题的不同方法;另一方面使代码的呈现更具有结构性,易于认知层面的统计分析。例如,在一道PISA科学题目中,仅仅是“零分”等级上,代码就包括四种:“01”、“02”、

E

D

U

C

A

T

I

O

N

A

L

S

C

I

“03”和“04”。这就要求编码人员在分析学生的作答过程中,充分理解学生回答问题的思路和方式,体现了对于每个学生的每个作答的尊重,也收集了有关学生思维品质和作答路径的数据。

除此之外,代码编号还包括特殊代码“9”,用于标记学生没有回答该题目,即在该题目上作答空白且没有任何作答痕迹的情况。该代码严格区别于错误答案代码“0”。PISA认为学生“没有回答”和“零分”在评价学生能力上是有区别的。“没有回答”可能是由于没有时间作答,通过数据可知若大批学生没有时间做完整卷,可反馈给命题人员缩减题目数量,减轻考生不必要的精神紧张;也可能是学生没有理解该题目而直接进入了下一题,通过反馈给命题人员以便确定题目的表述是否清晰,是否会影响考生对题意的理解。“零分”则是表明学生有回答的痕迹,学生尝试去回答但没有成功。

PISA在对数据初始分析之后,还会对题目的分数等级进行再一次的判定。若统计结果表明在不同分数等级上的学生能力没有显著的差异,PISA会把不同的分数等级合并统一成一个分数等级。如果可以把编码指南中分数等级的划分说成是先验的,那么后期基于数据的再划分则是后验的。这种先验和后验相结合的方式,使得PISA在分数等级的划分上更具科学性和合理性。

(二)以学生为本的编码技术

PISA要求主观题编码人员在编码过程中尊重学生个性,关注学生所有合理的认识和想法,提出了有利推断等一系列编码原则。同时,PISA也非常注意区分学生想法的具体指向,避免笼统和口号式的答题。这就要求每一位编码员能够“转换”角色,站在学生的立场去感受和理解学生多样化、个性化的表达。PISA这种以学生为本的编码原则具体表现在以下几方面。

1.充分理解学生的作答思路,进行有利推断PISA强调编码员必须通过判断去决定代码之间的区别以及某个特定的代码的边界条件。编码员的判断应该建立在对每一个学生是否能够回答该问题的最佳评估的基础之上。同时依据有利推断的原

E

N

C

E

R

E

S

E

A

R

C

H

35

则,在学生回答思路出现比较含糊意思的情形下能从有利学生的角度进行“无罪辩护”。编码员必须在考生作答的字里行间去体会考生的思维逻辑,避免使用缺失模型(deficitmodel),即不要因为一点点的小错误就随便地去扣分。在传统的中、高考阅卷过程中,阅卷教师很自然地会站在居高临下的角度对考生作答进行“挑错”;在PISA编码时,编码员的身份则是从负责宣判的“法官”变成了负责辩护的“律师”。

2.忽略微差错,发现闪光点

PISA测试并不是一个文法测试,编码员应该忽略考生作答中的拼写和语法错误,除非这些错误严重模糊了学生的表述。例如,编码员遇到的很多学生作答中存在错别字,那么就需要通过语义之间的结构和关系对这些学生的思路进行还原。还有个别学生在进行计算机测试时没有正确使用汉字输入,而是全部拼音,有的拼音之间甚至没有任何的分隔符号,看起来就好像是出现的乱码一样。出现这样的情况可能是由于学生当时无法切换输入法或操作失误造成。这需要经过编码员和编码培训专家共同“识别”,“破译”学生作答思路,并给予适合的代码。

3.区分矛盾要素和不相关要素

PISA对学生的作答要素进行了明确的划分。矛盾要素指在与问题相关的要素中,一部分是符合“满分”或“部分得分”的回答,一部分却是“零分”的回答。在该情况下,PISA认为学生的回答出现了矛盾,在逻辑和判断上都是不予接受的。这样的回答应该被判定为“零分”。这就要求编码员在分析学生的作答时,不能一味去“踩点”,同时也要关注答案的其他部分,在总体上把握学生的作答思路。不相关要素指的是学生作答中与问题无关的部分。编码员在对整个答案进行编码时,可以忽略这部分内容。最常见的例子是学生写出的作答比得分所要求的内容更多。那么这些多余的无关信息,无论在科学性上是否正确,都应不予考虑。

(三)确保标准一致性的组织架构

在PISA编码过程中,或者在其他测试阅卷过程中,编码员都不可避免地会遇到难以评判或者模

棱两可的学生作答。如何科学、及时、有效地处理这些学生作答呢?PISA有着三个层次的解决步骤。[6]

步骤一,严格忠实于编码指南。编码指南是阅卷编码过程中最重要的参考资料,是每一个主观题的评判依据。在编码员不清楚如何评判学生作答的情况下,不要轻易地给出代码,更不能主观臆断、自由发挥。首先要做的就是再次理解编码指南,体会编码指南中对于该题目的描述和考查的意图,剖析学生作答并与编码指南进行严格比对。

步骤二,咨询编码培训专家。如果在步骤一中问题仍然无法得到解答,编码员需要直接咨询本国的编码培训专家。特别地,PISA2015在实现机考阅卷编码之后,对于这些存疑的学生作答,编码员可以在该作答的编码界面中点击“延迟处理”按钮提交后,直接继续其他学生作答的编码,而不需要在此作答中等待或草率地给出编码。这是信息化技术的一个具体体现。

步骤三,国际咨询和仲裁。在该步骤中,本国的PISA国家中心需要把该学生作答准确地用英文进行表述,通过在线国际咨询平台发送给该领域的国际专家组。国际专家组通常会在次日提出该问题的解决方案和评判结果。在PISA阅卷编码过程中,各国PISA国家中心通过国际平台进行学生作答咨询,一方面可以获取解决方案,同时也能进一步丰富国际样例库。

(四)中央化的质量监控和分区化的编码组织相结合的管理模式

第一,国际方面。为保障参与PISA2015正式测试的不同国家与地区之间的一致性能够进行比较和分析,PISA2015专门在每个测试领域的编码员中设置了双语编码员。双语编码员必须精通本国测试语言和英文。双语编码员会在自己需要编码的每个主观题中被随机地分配到一些国际样例库中的英文学生作答。这些英文学生作答在不同的国家和地区之间是相同的,PISA以此来比较和监控不同国家和地区之间的一致性。

第二,本国实施方面。PISA2015采用了严格的多评模式,特别是科学测试领域甚至达到了8

评。

I

E

N

C

E

R

E

S

E

A

R

C

H

36

EDUCATIONALSC

即,每一个主观题上所有学生的作答分配给8名经过严格培训的编码员;在每个编码员所分配的学生作答中,均含有100个相同的学生作答,这些相同的学生作答随机地出现在每位编码员的文档之中。PISA的一致性检验便是基于不同的编码员在这些相同的学生作答上的反应并采用评分者内部一致性(inter-rateagreement)模型得出。评分者内部一致性是一种百分比一致性模型,该模型以8位编码员在所有相同作答上的编码作为参照,计算的是每一个编码员与其他编码员的一致编码的数量占总编码数量的百分比。与相关法和概化理论相比,一致性百分比更为便捷和高效,可以实时监控每一位编码员的一致性百分比。[7]

(1)该地海拔较高(3000米以上),氧气含量偏低,需带氧气袋(瓶)、抗缺氧药品等;(2)该地气压偏低,水的沸点低,需带高压锅等;(3)该地空气较稀薄,太阳辐射强,需带防晒物品;(4)该地气温偏低,昼夜温差大,需备防寒衣物;(5)该区域多大风,需备防风帐篷等。答案总分为10分,答对每个要点得2分。

如果采用双位编码的方式,该题目的编码指南可以这样设计:海拔较高(3000米以上),氧气含量偏低,需带氧气袋(瓶)、抗缺氧药品等,分数代码为2,类别代码为1;气压偏低,水的沸点低,需带高压锅等,分数代码为2,类别代码为2;空气较稀薄,太阳辐射强,需带防晒物品,分数代码为2,类别代码为3;气温偏低,昼夜温差大,需备防寒衣物,分数代码为2,类别代码为4;此时该区域多大风,需备防风帐篷等,分数代码为2,类别代码为5;试卷纸张破损、扫描不清楚等由于技术原因导致的无法阅卷,分数代码为0,类别代码为8;空白作答,即学生在答题区域没有任何作答痕迹,分数代码为0,类别代码为9;完全错误作答,分数代码为0,类别代码为0。

双位编码体现了一种良好的诊断性质量监控的评价模式,较单维的评分方法更能充分利用计算机技术的优势。从上面的例子可以看出,双位编码可以极大地丰富高考数据提供的信息,为命题和教育教学提供重要的反馈信息。它不仅给出一个分数等级,还能对学生表现进行分类,如果说“因材施教”是发挥学生潜能的最好方式,那么分类编码评价,则是确定学生属于何种“材”的有效手段。

(二)在不同省份设置共同作答组,监控各省份的阅卷质量

PISA为防止各国阅卷编码标准把握尺度不统一,通过为阅卷编码员提供一定比例的共同的学生作答,从而来监测编码一致性。

根据《国务院关于深化考试招生制度改革的实施意见》,我国高考从2015年起将逐步增加使用全国统一试卷的地区。长期以来,我国高考的阅卷评分是以省为单位的,国家层面基本上没有具体的管

I

E

N

C

E

R

E

S

E

A

R

C

H

三、高考网上阅卷的可能借鉴

从根本上来说,PISA和高考毕竟是两种不同的考试,在考试理念和考试方法上有着很大的区别。但本文前半部分所介绍的PISA阅卷编码的理念和做法,无疑可以为我国高考网上阅卷提供一些改进的思路和方向。

(一)理念上自传统的评分提升到现代的编码笔者十余年来四次主持PISA编码在中国的组织工作,深深感到,“评分”与“编码”两字之差绝不仅仅是咬文嚼字,其背后隐藏着深刻的观念上的差别。

我国各级考试评分目前主要是给出学生一个单纯的分数。事实上,考生对题目的反应蕴藏着丰富的信息,评分员充分挖掘这些信息,不但能增加选拔的准确性和有效性,还能充分发挥考试对于教育教学的反馈和评价功能。如果我们借鉴PISA的做法,在高考阅卷评分中,分类细化,设置多位代码,评分员除了给出考生的原始分数外,还可以根据学生作答类别等给出相应的类别代码,那么这种编码不但可增加评分的准确性,更能起到分数之外的积极作用。

例如,2014年文科综合新课标1卷一道“旅游地理”题目要求考生回答为应对旅游地自然环境需要携带哪些生活用品。该题目的参考答案要点为:

E

D

U

C

A

T

I

O

N

A

L

S

C

37

理措施。借鉴PISA的做法,在高考使用全国统一试卷的地区,教育部考试中心完全应该也可能建立类似于PISA的管理模式,通过设立共同作答组,监控各省份的阅卷质量。具体措施如下:首先,在阅卷开始前,组织阅卷专家在各个省份抽取一定数量的学生作答作为试验样本。这些学生作答样本必须经过阅卷专家的仔细讨论和研究,确定一个最为合适的得分。学生样本同时需要等比例涵盖到该主观题的各个分数段。这样我们就建立了各个省份每名评分员的监控标准。然后将这些样本通过计算机系统自动派发给每名评分员。我们可以通过比较不同省份、不同评分员在这些共同作答上的评分与标准的差异来监控和判断各省份的评分准确性和标准掌握的一致性。

同样以上述“旅游地理”题为例。我们可以在各省份的学生作答中由阅卷专家精挑细选出若干个典型作答作为标准样本,然后把这些样本穿插在分配给每个评分员的学生作答之中。辅以统计分析手段,国家就能够监控各个省份在评卷过程中的一致性和宽严程度,从而有效防止分数掺水和过分严苛。同时,对每个评分员而言,除了接受双评监控,还需要面对省际共同样本这种“标准参照”的检验。两个双评编码员可能通过博弈选择一种较为折中的分数降低评分超出阈限的风险,但是在“标准参照”下,这种现象可以得到有效的防治。

(三)充分借助信息技术,更大程度发挥网上阅卷的潜在优势

阅卷“两圈论”虽然理论上不可避免,但在网上阅卷的背景下可以通过新的方式尝试解决。PISA规定阅卷编码员在遇到较难评判或者模棱两可的答案时,可以通过编码界面中的特殊功能键进行提交,由阅卷编码培训专家讨论,给出合理的评判,管理者同时会把此类作答的判断标准对所有编码员进行及时发布,这就提供了一种对付标准不同的新答案的机制。类似地,高考可以在评卷系统中设置“延迟处理”功能,评分员在发现难以评判的答案时,通过“延迟处理”把问题实时提交给阅卷专家组。阅卷专家组经过研究讨论之后,再把处理方案

反馈给评分员,同时向所有评分员发布补充评判标准。这样可以避免评分员在遇到问题时主观臆断,也避免了评分员为减少评卷误差而给出“保险分”,更大程度地保证了所有评分员评判标准一致,提高了阅卷效率。这对于以选拔功能为主的高考来说非常必要,对于保证考试公平性也有着重要意义。

2013年山东省高考文科综合试卷的第31题是一道政治题,第一天阅卷之后,就在参考答案基础上补充了30种其他答案,第二天又补充了20种答案。这样的补充反映了教学一线的实际情况,也是命题专家在参考答案和评分标准中未涉及到的内容。上文举例的“旅游地理”题目中,当出现标准参考答案以外的合理答案时,在传统的阅卷工作中,依据标准答案进行“踩点”式评分会很轻易忽略这样的答案。借助网上阅卷的技术优势,我们可以及时改进该题目的评判标准,及时补充完善编码指南,并对此前已经评阅过的试卷进行修正。

创新是发展的重要驱动力,创新思维的培养在教育教学中正越来越受重视。无论是PISA还是高考,都特别注重对这方面的考查和评价。PISA认知领域框架设计强调情境的重要性,注重学生在测试过程中所产生的丰富多彩、个性化的创造性表现。主观题的设置为学生提供了足够的思考和表达的空间,让每个学生能够不受“限制”地回答,能够在“自由”的氛围中表达自己的思想和真实想法。我国高考每年都有几百万的考生参加,茫茫答案中更不知有多少繁星般闪烁的学生智慧亮点,如果阅卷是用标准答案去限制和固定学生的思维,那将是极其悲惨和可怕的场面;如果我们发现和鼓励学生的闪光点,则不仅能够鼓励考生的创新思维,更能够激发一线教师敢于教学创新的热情,形成教育、教学、考试的良性互动。再以2013年山东省高考为例。对于高考物理科第22题而言,较为常规的解法是使用牛顿第二定律求解,这种解法相当复杂、费时费力,还容易出现计算的错误;而另外一种解法是巧用动量守恒求解,可以快速得到答

案。在我们通常的阅卷过程中,采用不同解法的考

(下转第45页)

I

E

N

C

E

R

E

S

E

A

R

C

H

38

EDUCATIONALSC

容、鼓励的小组氛围能够使学生没有顾忌地说出自己的想法,促进其发散性思维发展。

(三)组织合作学习培养学生的创造力本研究认为,合作学习能更好地培养学生的创造力,并且合作学习的效果是可干预的。第一,采用异质分组。从“三种类型合作学习小组问题解决水平的比较”部分的数据结果我们可以发现,异质组和高分同质组具有相似的问题解决水平,且都显著高于低分同质组,那么,最经济、最现实的分组方式应为异质分组;另外,异质分组有利于建构交互式知识系统,不同背景的学生可以带来范围更广的知识,有助于交互知识系统的建构。第二,培育健康的小组氛围。小组氛围在小组合作过程中逐渐形成,它以一定的人际交往技巧为基础,如普通的礼貌、尊重等;但它又旨在问题解决,因此,能够促进小组氛围的人际沟通技巧主要是以问题为中心的讨论,即针对问题的肯定、评价、建议等。第三,理解认知涌现的过程,使合作学习张弛有度。合作学习在解决开放问题时是一个头脑风暴的过程,即学生的认知不断涌现。认知涌现具有原型启发和认知精致两种过程。原型启发过程快且轻松,

(上接第38页)

认知精致阶段则会伴有挑剔和评价。充分认知这一点不仅可以使学生对问题解决过程有所把握,同时能够有助于克服学生在认知精致阶段中的懊恼情绪,提升小组氛围,进而促进问题解决。[12]

[注释]

[1]王坦.论合作学习的基本理念[J].教育研究,2002,(2).[2]黄荣怀,刘黄玲子.协作学习系统观[J].现代教育技术,

2001,(1).

[3]王静,陈英和.合作学习小组的认知风格对其问题解决的影

响[J].心理发展与教育,2008,(2).

[4]迈克尔·A.豪格,多米尼克·阿布拉姆斯.社会认同过程[M].

高明华,译.北京:中国人民大学出版社,2010:9-37.[5][6]张雷,雷雳,郭伯良.多层线性模型应用[M].北京:教育科

学出版社,2005:6-8、63.

[7]方杰,张敏强,邱皓政.基于阶层线性理论的多层级中介效

应[J].心理科学进展,2010,(8).

[8]张文新,谷传华.创造力发展心理学[M].合肥:安徽教育出

版社,2004:88-90.

[9][12]王静.合作学习在促进学生生态多样性认知中的作

用——基于认知加工的视角[J].中国校外教育,2015,(3).[10]Jobnson,D.W.,&Jobnson,R.T.合作学习[M].伍新春,郑

秋,张洁,译.北京:北京师范大学出版社,2004:85-98.[11]Amabile,T.M.,Conti,R.,Coon,H.,etal.Assessingthework

environmentforcreativity[J].AcademyofManagementJour-nal,1996,39(5):1154-1184.

(责任编辑:韩梅)

[注释]

[1]新华网.2015全国高考阅卷工作开始,全国所有省份实现网

上阅卷[EB/OL].http://news.xinhuanet.com/video/2015-06/10/c_127900012.htm.

[2]陈志国,芮南.高考作文网上阅卷双评过程中的质量监控

[J].中学语文教学,2009,(6).

[3]彭恒利,俞韫烨.主观性试题网上评阅趋中评分控制研究初

探[J].中国考试,2013,(6);俞韫烨,谢小庆.基于多面Rasch模型的作文网上阅卷“趋中评分”判定研究[J].中国考试,2012,(1).

[4]Marton,F.,&Saljo,R.Onqualitativedifferencesinlearning

[J].EducationalPsychology,1976,(46):4-11.

[5]王蕾,张文静.PISA中国试测研究的评分者效应分析对高考

网上阅卷的启示[J].统计与信息论坛,2012,(6).

[6]OECD.PISA2012TechnicalReport[EB/OL].http://www.oecd.org/

pisa/pisaproducts.

[7]孙晓敏,张厚粲.表现性评价中评分者信度估计方法的比较

研究——从相关法、百分比法到概化理论[J].心理科学,2005,(28);徐晓峰,刘勇.评分者内部一致性的研究和应用[J].心理科学,2007,(30).

生只会得到相同的分数。但是,如果进行双位编码的设计,我们或许就可以区别出这种高阶的思维品质和思维过程,也完全应该对采用创新解法的考生给予额外的分数奖励。

因此,新一代的高考阅卷系统应该基于编码的理念,提供一个从国家到省两级互动的信息平台,实现信息共享、分类细化评分、培训咨询、实时质量监控、评分员评价和管理、数据挖掘和反馈等多种功能。借鉴PISA编码的思路和方法,依托强大的信息技术手段,我国高考网上阅卷一定可以在已经取得的巨大进步的基础上再上新台阶。当然,我们所讨论的问题主要聚焦在设计和方法的改进方面,对于各级考试机构所反映的阅卷时间短、阅卷教师压力大等社会和政策问题,还需要相应的体制机制乃至制度创新。

E

D

U

C

A

T

I

O

N

A

L

S

C

I

(责任编辑:金

E

N

C

E

R

E

S

E

A

R

C

平)

H

45


相关文章

  • 高考阅卷老师:2014年高考数学如何拿高分?
  • 高考阅卷老师:2014年高考数学如何拿高分? 高考阅卷老师:2014年高考数学如何拿高分? 考题解析:高考各类题型基本固定 张天德教授说,对于数学高考来说,同学们首先应该熟悉考题基本类型,在抓重点的同时全面地兼顾掌握各类知识点.与此同时还要 ...查看


  • 高考网上阅卷透视
  • 高考网上阅卷透视 杨清虎 马上又要举行一年一度的高考了,笔者在这里针对时下普及的网上阅卷工作,做点适当的披露和介绍,让高考阅卷不再神秘.希望没有参与过阅卷的老师和同学们对高考网上阅卷有所了解,增加社会透明度.作为老师应该了解评卷机制,有利于 ...查看


  • 山西网上阅卷系统之五岳鑫
  • 我们的优势 优势一:北京五岳鑫--高考网上阅卷中标品牌,让您与高考零距离 ................... 北京五岳鑫信息技术股份有限公司(以下简称"公司")成立于2000年11月, 2007年10月公司在深交所成 ...查看


  • 山西:高考网上阅卷考生答卷注意事项
  • 来源:山西晚报 文章作者:王冠兴 2012-03-07 11:06:14 今年,我省高考将首次实行网上阅卷,为了应对这一变化,3月10日11日,省招考中心和省教研室将在全省应往届高考生中组织一次高考考前适应性训练.这次训练,考生一定要认真对 ...查看


  • 7科高考网上阅卷总结
  • 阅卷归来有话说 2012年的高考虽然已经过去了,但留给我们的话题却很多,对我们的高考备考工作来说,这只是一次经验的积累,是又一次征程的起步.本报特邀恩施高中7位参加湖北省高考阅卷工作的老师,听听他们阅卷归来的心得体会,希望能对我州广大高中教 ...查看


  • 中考网上阅卷考生答题注意事项
  • 中考网上阅卷注意事项 一.试卷是如何扫描的 1.如果不使用规定的2B铅笔,可能识别被误判为 "空选 ",造成失分. 2.蓝色钢笔书写后,扫描字迹较浅,若无法辨认,容易误判或不给分. 3.作图未使用规定铅笔,或下笔太轻,会 ...查看


  • 我爱我故乡作文
  • 我爱我故乡故乡.他有着一种意韵的美,让我不敢直视.他有一种独特的味道,让我回味无穷:他有一种家的温馨,让我投其怀抱.满山的柚子,大家就知道我的故乡了吧---没错,就是生产柚子基地的平和.在家乡,三面环山,走出村庄,还是在盘旋在山上的公路上, ...查看


  • 自己的路由自己开辟作文
  • 自己的路由自己开辟故乡中的老年杨二嫂与中年闰土,都因走上了不同的道路而过上了不同的人生.这路,是有人用血和泪走出来的,只为告诫后人不要再重蹈覆辙.只可惜事与愿违,反而是更多的人选择"不费气力"地走在这条艰苦的道路上,也不 ...查看


  • 最近北京市教委发布2016年高考方案
  • 最近北京市教委发布2016年高考方案,决定将语文分值从150分调到180分,英语从150分调到100分,文理科综合300分调到320分,数学不变,还是150分.另外,英语将增加一年两次考试,如高一已考了100分,高二高三可不考英语.这个消息 ...查看


热门内容