我国外语类大学生思辨能力客观性量具构建的先导研究_文秋芳

2010年1月外语教学J a n . 2010

                              

第31卷第1期F o r e i g nL a n g u a g e E d u c a t i o n V o l . 31N o . 1

我国外语类大学生思辨能力客观性量具构建的先导研究

文秋芳, 赵彩然, 刘艳萍, 王海妹, 王建卿

1

2

3

4

5

(1. 北京外国语大学中国外语教育研究中心北京100089; 2. 河北大学外语教研部河北保定071002;

3. 广西财经学院外语系广西南宁530003; 4. 山东财经行政学院外语系山东济南250014;

5. 山西忻州师范学院外语系山西忻州034000)

摘 要:为了解我国外语专业与非外语专业文科学生在思辨能力上是否存在差异, 笔者构建了测量大学生思辨能力认知维度的客观性量具, 并对来自3所高校的750名英语与非英语专业大学生进行了初步测试。量具的项目分析和信度检验结果表明, 量具信度尚可, 但题目偏易, 区分度不够高。本文报告了量具的构建过程、检验结果和相关领域专家的咨询意见, 为进一步修改完善思辨能力量具提供了前期数据。关键词:外语专业; 大学生思维能力; 思辨能力; 大学生思辨能力量具

中图分类号:H319  文献标识码:A   文章编号:1000-5544(2010) 01-0055-05

A b s t r a c t :I no r d e r t o f i n do u t w h e t h e r t h e r e i s a n y d i f f e r e n c e i n c r i t i c a l t h i n k i n g s k i l l s b e t w e e nf o r e i g n l a n g u a g e m a j o r s a n dt h e a r t s s t u d e n t s m a j o r i n g i n o t h e r s u b j e c t s , w ec o n s t r u c t ac r i t i c a l t h i n k i n gs k i l l s t e s t w h i c hh a s b e e nt h e na d m i n i s t e r e dt o 750s t u d e n t s i n c l u d i n g b o t hE n g l i s h m a j o r s a n d n o n -E n g l i s h m a j o r s f r o m t h r e e t e r t i a r y i n s t i t u t i o n s . Wh i l e t h e r e l i a b i l i t y c o e f f i c i e n t o f t h e t e s t i s f a i r l y a c c e p t a b l e , t h e r e s u l t s o f i t e m a n a l y s i s i n d i c a t e t h a t t h e i t e m s a r e s o m e w h a t e a s y a n d t h e i n d i c e o f d i s c r i m i -n a t i o nn e e d f u r t h e r i m p r o v m e n t . T h e p a p e r r e p o r t s h o wt h et e s t h a s b e e n c o n s t r u c t e da n dv a l i d a t e da s w e l l a s t h ec o n s u l t i n g a d v i c e f o r t e s t r e v i s i o nf r o mt h e e x p e r t s i n t h e f i e l d o f p s y c h o l o g y , p s y c h o l o g i c a l m e a s u r e m e n t , p h i l o s o p h y a n d a p l l i e d l i n g u i s -t i c s .

K e yw o r d s :f o r e i g nl a n g u a g e m a j o r ;c o l l e g es t u d e n t s ' c r i t i c a l t h i n k i n g s k i l l s ;c r i t i c a l t h i n k i n g s k i l l s ;u n i v e r s i t ys t u d e n t s ' c r i t i c a l t h i n k i n gs k i l l s t e s t

引言

为了解我国外语专业与非外语专业文科学生在思辨能力上是否存在差异, 外语专业学生的思辨能力发展是否受到外语学习内容及方法的影响, 文秋芳等申请到2008年国家社科项目“中国外语类大学生思维能力现状研究”(08B Y Y 026) 。根据研究计划, 我们应该首先构建测量大学生思辨能力量具的理论框架, 接着依据理论框架设计测量思辨能力的工具, 并对其进行信度与效度检验。

2008年5月我们完成了理论框架的构建, 并将此结果发表在《外语界》(文秋芳等, 2009) 。我们借鉴了国内外三个主要理论模型:特尔斐的双维结构模型(A m e r i -c a n P h i l o s o p h i c a l A s s o c i a t i o n 1990) , P a u l &E l d e r (2006) 的三元结构模型, 林崇德(2006) 的三菱结构模型, 并在此基础上提出了层级理论模型。该模型主张思辨能力包含元思辨能力与思辨能力两个层次, 前者位于高一个层次, 对后者具有影响力与控制力。思辨能力包括认知与情感两个维度。认知维度又可分解为分析、推理与评价三种分项核心技能。

2008年6月我们完成了构建测量认知维度客观性量具的先导性研究。本文将报告本次先导性研究的结果。全文分四部分。第一部分说明国外相关主要量具对我们的启示, 第二部分介绍构建本课题量具的过程, 第三部分报告本量具信度与效度的验证结果, 第四部分阐述专家咨询会议对本量具的评价及改进建议。

1. 国外思辨能力量具(认知维度) 构建的重要启示王建卿等(待发) 对现有主要思辨能力量具的题型做了较为详细的分析, 并探讨了对构建我国相关量具的启示。她们考察了国外6种测量思辨能力的主要量具, 其中5种由美国人开发, 1种由英国人开发; 最早的问世于20世纪80年代, 最新的于本世纪初。4种采用了客观题型, 2种采用了主观题型; 涉及的内容均与日常生活问题相关。她们归纳出的启示中有两条对我们设计本课题量具特别重要。第一, 量具中的测量题主要根据题型而不是依据思辨分项技能来设计。尽管国外多数量具构建者设计了理论框架, 对思辨能力有清晰定义, 有的甚至声称量具是根据思辨能力分项技能设计, 但实际情况并非如此, 因子分析也证明量具中的题目不能归类

·

为预设的分项技能。根据逻辑推理, 开发一个高质量的量具, 设计者应该基于所测构念(c o n s t r u c t ) 的分项因子逐一命题, 然后用因子分析来验证所测结果是否确实含有这些因子的存在。然而思辨量具不同于一般量具, 其中重要原因是, 思辨是一种复杂的高层次心理活动。我们在处理问题时, 通常需要多种分项技能交织使用, 单纯使用一种思辨分项技能难以成功完成任务。本课题也参照其它思辨能力量具的做法, 依据题型来设计题目。我们得到的第二个启示是, 限时的书面考卷难以同时测量元思辨能力与思辨能力, 因为元思辨能力是对思辨活动的评估、调控与修正。换句话说, 元思辨能力虽然非常重要, 但在实际测量时还有困难。依据这一启示, 本量具不涉及元思辨能力。

2. 量具的构建

本量具共有60道题, 分为难易度相似的A 、B两套试卷, 为的是避免让同一组学生完成60道题过于疲劳。60道题包含10种题型, 每种题型有6题。每套卷的30道题分为3组, 每组10道题, 内容不同, 但题型结构完全一样(每部分结构见表2的题型顺序) , 为的是每种题型的题目能够均等地分散在学生答题的不同时间段。

2. 1量具题目的来源

我们研究了多种量具、考试与练习, 从中筛选出合适的题目, 对其进行修改。为使题目的内容更加丰富, 同时符合中国文化背景, 我们对很多题目进行了较大改动。有的修改了题干, 有的修改了选项, 有的题干与选项均做了调整。少量自编的题目只是借用了别人的思路。表1列出了本课题量具中题目的来源及其数量。

表1. 量具中题目的来源

序号123456789

1011合计

名称

剑桥思维能力评估样题(见参考文献5) 加利福利亚高层次思辨技能量表(见参考文献4)

华生-格来泽高层次思辨评价(见参考文献2工程硕士考试(G C T ) 工商管理硕士考试(M B A ) 法律硕士入学考试(L S A T ) 公务员行政职业能力测试

思维能力测试网站(i n s i g h t a s s e s s m e n t . c o m ) 《批判性思维教程》(谷振诣、刘壮虎, 2006) 《论证与分析》(谷振诣, 2000) 自编

题量A 卷1222212313

1130

B 卷[1**********]30

的依据。从2007年起, 牛津大学也开始采用。相对与其他考试, 我们认为该考试比较成熟, 使用范围也比其他考试广, 同时从功能上看, 也比较正式。

2. 2主要题型

我们设计的量具共有10种题型。表2列出了各种题型的题目数及每种题型的举例。需要说明的是, 所举例子不是测试真题, 为的是真题日后能继续使用。

表2. 10种题型的题目数及举例

题型举例

1

识别假设

从北京到广州坐飞机最省时间。以上陈述预先假设了下面哪一项? 4A . 从北京到广州有航班。 B . 从北京到广州没有火车。 C . 坐飞机比乘坐其他交通工具更安全。 D. 北京是中国的首都。如果公司不给员工加薪, 员工的工作积极性会滑落, 生产能力也将随之降低, 利润也会减少。这意味着公司业务会陷入停顿。公司老板面临两个选择:要么给员工加薪, 要么等待公司6倒闭。下面哪句话可作为上述言论的结论? A . 如果提高了工资, 公司将摆脱困境。 B . 如果不加薪, 公司可能会倒闭。 C . 老板将不得不接受生产能力下降的事实。 D . 如果生产能力低下, 公司将陷入停顿。某公司开会对某项议案投票表决, 所有议员都参加。他们可以投赞成票、反对票或弃权。如果多数人投赞成票, 则议案通过。如果投赞成票的人数不超过一半, 就意味着议案不能通过。下面哪句话指出了上述言论的推理错误? A . 一些原本持赞成态度的人也许改变了想法, 最后投的是反6

对票。B . 如果所投票中大多数是反对票, 议案则无法通过。C . 在票数统计出来之前, 没人准确知道投票的结果。D . 一些投票者可能弃权, 这意味着赞成或反对票均有可能少于一半。有一项针对中学生饮酒试验的研究发现, 每天喝2罐或2罐以上啤酒的学生, 连续喝60天后, 有75%的学生被检测到肝功能退化的征兆, 该研究还声称已经排除了该结果出现的偶然性。

6如果以上陈述为真, 以下哪项推论正确? A . 饮酒与中学生肝功能退化有统计学上的关联。B . 饮酒能够导致中学生肝功能退化。C . 饮酒与中学生肝功能退化的关系不受性别影响。D . 研究者出于某种原因想证明青少年不该喝啤酒。某商店失窃, 甲、乙、丙、丁四人涉嫌被拘留。四人的口供如下甲:案犯是丙。乙:丁是罪犯。丙:如果我作案, 那么丁就是主犯。丁:作案的不是我。

四个口供中只有一个是假的。

6如果以上断定为真, 则以下哪项为真? A . 说假话的是甲, 作案的是乙。B . 说假话的是丁, 作案的是丙和丁。C . 说假话的是乙, 作案的是丙。D . 说假话的是丙, 作案的是丙。如果学校的财务部门没有人上班, 我们的支票就不能入账; 我们的支票不能入账, 因此学校的财务部门没有人上班。请在下列各项中选出与上句推理相似的一项。A . 如果太阳队主场是在雨中与对手激战, 就一定会赢。现在太阳队主场输了, 看来一定不是在雨中进行的比赛。6B . 如果太阳晒得厉害, 李明就不会去游泳。今天太阳晒得果然厉害, 因此可以断定, 李明一定没有去游泳。C . 所有学生都可以参加这一次决赛, 除非他没有通过资格赛。这个学生不能参加决赛, 因此他一定没有通过资格赛。D . 如果没有特别原因, 公司一般不批准职员的事假申请。公司批准了小陈的事假, 看来他一定有特殊原因。

2

识别论点

3

识别推理错误

4推论

5

逻辑推理

6

 (注:构建本量具所参考的文献, 有的太长不便直接列在表中, 我们就注出了该参考文献在后面所列文献中的顺序; 有的是公开测试, 每年都有, 难以将其一一列在参考文献中。)

匹配

相似推理

根据表1, 我们可以看出本量具中将近三分之一的题目(19题) 参考了《剑桥思维能力评估》样题, 原因是该量具研发于20世纪80年代中期, 经过多轮的效度检验, 从2001年起已经成为剑桥大学部分系科录取新生

妈妈让珍妮去商店买苹果。她根据昨天苹果的价格每个0. 6

元, 给了珍妮够买一定数量苹果的钱。珍妮来到商店后发现有

76促销活动, 如果买4个以上, 每个苹果可以便宜0. 1元, 她就可

以多买1个。她能买多少个苹果? A . 4 B. 5 C . 6 D . 9

8

运用潜在规则

接受挑战是认识自我的一个重要途径, 因为人在接受挑战中, 能够关注自己在情绪和行为方面的变化, 从而能更加有效地洞察到自身的弱点与不足。

以下哪个例子最能说明上述论证的潜在规则? A . 即便惧怕在公开讲话, 也应该接受演讲的邀请, 因为大家会佩服你的勇气, 你自身也能获得迎接挑战的满足感。6B . 在艰苦环境中的生活体验是人生宝贵财富, 知道了什么叫苦, 才能更珍惜今天的幸福生活。C . 成功的学习者应该了解自身的性格特点, 从而有效调控自己的学习。D . 运动员在比赛中不应只关注输赢的结果, 而应该通过比赛展现自身勇于挑战的运动精神, 并从中获得快乐与满足。新税法实施后, 低收入纳税人每年平均减少100-300元的纳

税负担。所以, 税收改革有利于低收入纳税人。

如果以下陈述为真, 哪一项能最有力地削弱上述论证? A . 新税收制度下, 许多低收入的纳税人将不再缴税。6B . 新税收制度下, 少量高收入的纳税人也减少了纳税负担。C . 税收改革取消了住房补贴, 使低收入纳税人平均每年多花800元租房。D . 税收改革简化了缴税程序, 为许多人节省了办理纳税手续的时间。这话是某权威人士说的, 所以一定是真的。下面哪一个项是对上述推理的恰当评价? A . 推论正确, 引用权威人士的意见使推理有很强的说服力。6B . 推论错误, 权威的言论不一定都是真, 不能代替逻辑论证。C . 推论正确, 因为它是以事实为基础得出的结论。D . 推论错误, 不能用某一特例来支持一个普遍适用的论断。

本测试共有30道题, 每题后有A 、B、C、D四个

选项。请选择您认为正确的答案填在答题卡2

上。答题时间共50分钟, 请不要在一道题上花费太多时间。3

这一部分说明答题的方式与时间。我们希望被测者能够用相似时间完成每道题目。

模拟练习有两个目的。一

为了帮助你熟悉本测试的题型, 请您先完成下

让学生进入状态, 二是让学

列3道练习题后, 再开始正式测试。

生熟悉题型与回答方式。

3. 3数据收集与分析

2008年6月8日-15日完成数据收集。数据收集分两步。第一步要求学生完成测试, 第二步了解学生对测试的态度与对测试题的评价。测试以班级为单位, 每班有两名教师监考, 一名为课题组成员, 另一名为任课教师。每班一半人完成A 卷, 一半人完成B 卷, 监考教师交叉发卷。测试开始时, 教师进行简短动员, 希望能够认真配合。

测试时间为50分钟。测试结束后A 校和B 校分别对5名和10名学生进行了访谈, 每人被访谈的时间约50分钟; C 校采用了书面问卷方式, 回答问卷大约花费了15分钟。访谈与问卷调查的目的均是为了了解他们完成测试题的态度, 以及对测试题的评价。具体问题有:1) 是否做过类似考题? 2) 答完题之后, 有什么感受? 3) 对题目难易度有什么看法? 4) 喜欢与不喜欢的题型是什么? 被访谈的学生还要求逐题评价难易度与喜好。为了感谢师生对本次数据收集的配合, 我们给参加测试的师生发放了小礼物。

数据分析分三步进行。第一步, 将数据输入到E X -C E L 表格中, 然后进行清理、核查, 并纠正错误。第二步进行项目分析。首先列出各题四个选项的分布情况, 再计算难易度与区分度, 以及内部一致性。难易度计算的公式是:P =得分/满分; 区分度计算公式:D=P 1(27%高分组难度)-P 2(27%低分组难度) (王汉澜1987) 。内部一致性运用S P S S S 中S c a l eR e l i a b i l i t y 程序计算, 所得结果a l p h a 值作为信度指标。

4. 测试题的难易度、区分度、信度与效度

表5列出了每道题的难易度、区分度, 以及两份试卷各自的平均难易度、区分度以及内部一致性的A l p h a 值。根据表5, A 卷与B 卷的难易度相同, 均为. 72。也就是说被测学生答题的正确率均为72%。两卷的区分度很相近, A 卷为. 27, B 卷为. 28。内部一致性稍有差异, B 卷的信度(. 68) 稍稍高于A 卷(. 64) 。总体说, 测试题偏易, 区分度不够高, 信度系数基本可以接受。

表5. 两份测试卷的项目分析结果

难易度

区分度

难易度

区分度

难易度

区分度

卷B 卷A 卷B 卷号A 卷B 卷A 卷B 卷号A 卷B 卷A 卷B 卷A 1. 75. 59. 24. 4711. 67. 70. 37. 2821. 76. 54. 41. 402. 63. 58. 26. 4312. 64. 733. 52. 84. 32. 3213. 49. 854. 83. 88. 28. 1614. 53. 755. 63. 91. 17. 1715. 96. 636. 87. 48. 07. 0516. 68. 57

. 31. 2322. 80

. 32. 2223. 67. 22. 1824. 90. 08. 4425. 72. 37. 3726. 80

. 85. 20. 28

. 87. 23. 18. 76. 19. 37. 94. 35. 11. 84. 27. 18

9

评价

附加论据对论证的影响

10

评价推理

3. 量具信度与效度检验3. 1被测学生

参加量具信度与效度检验的学校共有三所, 其中有省属重点院校(简称A 校) 、省属一般院校(简称B 校) 、省属近年内专升本院校(简称C 校) 。每个学校1、2、3年级英语专业与非英语专业各有1-2个班参加, 共涉及12个班级。非英语专业学生的选择首先考虑文、史、哲专业, 其次考虑经、法、管专业。测试学生的选择属于方便样本。表3列出了各校各类测试对象的具体数字。三校英语专业学生369人, 非英语专业学生381名, 合计750人。

表3. 3校英语与非英语专业参加测试的学生人数

年级1年级2年级3年级合计

英语专业

非英语专业

A 校B 校C 校合计A 校B 校C 校合计[***********]203474

5566

3938

114138

3053

3238107

5043134

112134381

专业英语,

汉语语言文学,

新闻学, 政治学, 法律, 财务管理

[1**********]5

3. 2测试组织者与监考者

本次测试组织者为课题组3名成员。她们负责出面与各任课教师联系, 并邀请他们协助监考。各班任课教师不承担具体任务, 但他们在测试现场有利于督促学生认真完成测试任务。测试组织者有统一的测试指导语。表4列出了测试导语及其我们的说明。

表4. 测试导语内容及其说明

内容

本测试旨在了解中国大学生与外国大学生在解决问题方式上的差异。希望各位认真完成1每道题, 其答题结果能够真实反映中国学生的情况。本测试数据只用于研究, 绝不做它用, 恳请各位给予配合。

说明

这一部分说明测试目的与数据用途, 恳请被测者的合作。显然我们隐藏了真正的研究目的, 为的是不让学生紧张, 同时也希望学生能够认真完成本次测试。

·

7. 96. 878. 89. 899. 63. 85. 60. 55

. 16. 1417. 75

. 16. 1418. 58. 17. 1619. 84. 37. 4020. 50

. 76. 32

. 64. 21. 65. 18. 69. 45

. 3027. 86. 50. 21. 22

. 4528. 65. 64. 40. 40. 2729. 86. 46. 24. 40. 3630. 55. 67. 41. 37A 卷内部一致性(A l p h a ) :. 64

B 卷内部一致性(A l p h a ) :. 68

确, 选项欠周全的地方。所有这些, 都对我们改进试题提供了一手资料。

5. 专家咨询会议对本量具的评价与改进建议先导性研究结束后, 我们分析了数据, 总结了研究结果, 随后还召开了专家咨询会议。邀请的专家有北京师范大学心理测量教授与心理学教授、北京大学哲学教授、北京外国语大学应用语言学教授与哲学教授。他们的主要意见可以归纳为四条。第一、研究思路正确, 从构建理论框架入手, 再开展量具的先导研究。第二、依据题型设计量具题目操作性强, 因为思辨能力的分项技能难以与测试题一一对应, 这和智能测试或语言能力测试命题的做法相似。第三, 目前参加量具先导研究测试的人数少, 代表性不够。建议对量具修订后, 扩大样本量, 增强代表性, 继续进行验证性研究。第四、对量具构建的艰辛要有足够的思想准备。目前我国没有现成的思辨能力量具, 并不是心理学界不具备能力, 只是量具构建付出太大, 又无法申请专利, 因此成果很难受到保护, 并得到应有的承认。

第一、二条意见肯定了本课题研究的大方向, 增强了我们对本课题研究的信心。第三条意见是对未来研究工作的建议, 我们自己也有同样的计划。我们会根据专家意见, 继续量具构建的研究。第四条强调了此项工作的艰巨性。我们认为这个提醒特别有必要。作为外语教学研究人员, 我们不需要将构建高质量量具作为本课题的终结目标。如果量具的信度和效度基本符合要求, 能够测量出外语专业与非外语专业文科学生在思辨能力上的异同, 量具建设的任务就可以暂告一段落。我们不要奢望该量具成为我国测量文科大学生思辨能力的权威工具, 毕竟我们课题组中没有心理学、心理测量学、哲学领域的专家。

6. 结语

我们将认真对量具中不符合要求的题目进行修订, 同时继续阅读文献, 对已有的题型进行调整, 适当增加新题型。我们会将试测的学校扩大到10所以上, 其中包括“985”或者“211”学校, 人数要增加到2000人以上。

通过本次量具构建的先导性研究, 我们深深体会到构建量具的复杂性与艰巨性。除了构建量具本身的难度外, 我们还有面临着一些非学术性的挑战。例如我们不知用何种理由来说服学生以严肃、认真的态度完成该项测试, 目前我们只是运用任课教师的影响力。但大学生都是成人, 都有独立思考能力。当他认为该测试与他无关时, 我们相信无论老师提出何种严格要求, 他都有可能敷衍了事, 草草完成。一旦态度不认真, 我们就难

(下转第63页)

A 卷难易度:M =. 72

B 卷难易度:M =. 72

A 卷区分度:M=. 27

B 卷区分度:M=. 28

  表6列出了两套试卷合在一起的难易度与区分度的分布情况。很显然, 两套测试题中偏易题目所占比例太大, 难易度在. 39以下的一题没有, 而理想比例应该是30%,区分度达到要求只有26题, 连总题目数的50%都未达到。总体上说, 这个量具不很理想。

表6. 两套测试卷合二为一的难易度与区分度的分布情况及其评价标准

60题

理想比例60题评价区分度标准10%>. 1918(30%)删除20%40%20%10%

. 20~.2410(16. 7不太好, 但可修改

. 25~.296(10%). 30~.3913(21. 7>. 4013(21. 7较好

很好

. 2~.390. 40~. 5914(23. 3. 60~. 7924(40>. 8022(36. 6  要想改进区分度在. 20~. 29之间的16道题, 我们需要查看学生对这16道题每道题4个选项的选择情况。很显然, 我们可以看出16道题中绝大多数的4个选项中都有1个或2个未发挥恰当的作用。例如A 卷的第2道题选项C 、A卷18题的选项A 和B 选项均未起干扰作用。我们对这16道题的修改, 将从这些未起干扰作用的选项入手。

表7. 区分度在. 20~.29之间16道题的四个选项分布情况

序号A 1A 2A 4A 14A 18A 22A 23A 26

a

[**************]4

b [**************]34

c [***********]

d [***********]

e *序号1A 270010123

A 29B 11B 12B 13B 19B 22B 27

a

[**************]23

b [***********]

c [**************]7

d [**************]80

e 45100001

 (注:e *代表未作任何选择的学生数)

我们还进行了尝试性因子分析, 试图检验该量具的效度。反复试验各种可能性, 最终仍旧以失败告终。一是不少难易度、区分度合适的题目进不了任何因子, 二是能形成因子的题目抽象不出恰当的类别, 最后只好放弃。这进一步验证了国外量具构建者所得到的结果, 即思辨量具难以进行因子分析。

前面提到为了了解被测学生对本测试的反应, A 校与B 校采用录音访谈、C校采用问卷收集了相关数据。尽管采用的方式不同, 但反应极其相似。90%以上的学生对整体测试评价积极, 他们认为题目有趣、新颖, 贴近生活, 涉及面广。他们对难易度的评价大致比例是:57%的学生认为难度“适中”,认为“难”和“易”的学生分别占14%和28%。针对测试, 学生还提出了一些建议, 如增加主观题型, 缩短题干长度等。通过逐题询问学生的做题思路, 我们也了解到题目中存在表述欠准

w r i t i n g [J ].J o u r n a l o f S e c o n dL a n g u a g eW r i t i n g , 1999(3) :265-289.

[15]R a d e c k i , P . M . &J o h n M. S .E S Ls t u d e n t r e a c t i o nt o w r i t t e nc o m -m e n t s o nt h e i r w r i t t e nw o r k [J ].S y s t e m , 1988(16) :355-365. [16]S c h m i d t , R .T h er o l eo f c o n s c i o u s n e s s i ns e c o n dl a n g u a g el e a r n i n g

[J ].A p p l i e dL i n g u i s t i c s , 1990(11) :129-158.

[17]S i l v a , T .T o w a r dt h e u n d e r s t a n d i n g o f t h e d i s t i n c t n a t u r e o f L 2w r i t -i n g :Th eE S Lr e s e a r c ha n di t si m p l i c a t i o n s [J ].T E S O LQ u a r t e r l y , 1993(27) :657-677.

[18]S t a n l e y , J .C o a c h i n gs t u d e n t s w r i t e r s t o b ee f f e c t i v ep e e r e v a l u a t o r s

[J ].J o u r n a l o f S e c o n dL a n g u a g e W r i t i n g , 1992(3) :217-233. [19]T s u i , A .B .M . &N g , M .D os e c o n d a r yL 2w r i t e r sb e n e f i t f r o m

p e e r c o m m e n t s ? [J ]. J o u r n a l o f S e c o n dL a n g u a g e W r i t i n g , 2000(2) :147-170.

[20]V y g o t s k y , L . S . M i n di n S o c i e t y :Th e D e v e l o p m e n t o f H i g h e r P s y c h o -l o g i c a l P r o c e s s e s [M ].Ca m b r i d g e , M a s s :MI TP r e s s , 1978. [21]Z a m e l , V .R e s p o n d i n gt os t u d e n t w r i t i n g [J ].T E S O LQ u a r t e r l y ,

1985(19) :79-101.

[22]Z h u W. I n t e r a c t i o na n d f e e d b a c k i nm i x e dp e e r r e s p o n s e g r o u p s [J ].

J o u r n a l o f S e c o n d L a n g u a g e W r i t i n g , 2001(10) :251-276. [23]邓鹂鸣, 刘 红, 陈 芃, 等. 过程写作法在大学英语写作实验

教学中的运用[J ].外语教学, 2004(6) :69-72.

[24]莫俊华. 同伴互评:提高大学生写作自主性[J ]. 解放军外国语

学院学报, 2007(3) :35-39.

[25]王 翔. 学生能够掌握互改技巧吗? [J ].国外外语教学, 2004

(1) :54-56.

[26]杨敬清. 提高英语写作评改有效性的反馈机制———实验与分析

[J ]. 外语界, 1996(3) :41-45.

[27]张 英, 程慕胜, 李瑞芳. 写作教学中的反馈对教学双方认知行

为的影响[J ].外语界, 2000(1) :24-28.

基金项目:本文系教育部十五规划首批研究资助项目研究成

果之一, 编号为01J A 740032。

作者简介:邓鹂鸣, 武汉大学外语学院教授, 英文博士, 主要研

究方向为应用语言学。

岑粤, 中南民族大学外语学院讲师, 研究生, 主要研究方向为应用语言学。

收稿日期  2009-02-31责任编校  薛旭辉

(上接第58页)

2006.

[8]林崇德. 思维心理学研究的几点回顾[J ]. 北京师范大学学报(社

会科学版) , 2006(5) :35-42.

[9]王汉澜. 教育测量学[M].开封:河南大学出版社, 1987. [10]王建卿, 文秋芳, 刘艳萍, 王海妹, 赵彩然(待发) . 国外思维能力量

具的评析与启示———我国外语类大学生思维能力现状研究的前期报告。

[11]文秋芳, 王建卿, 赵彩然, 刘艳萍, 王海妹. 构建我国外语类大学

生思辨能力量具的理论框架[J ].外语界, 2009(1) :37-43.

以评估量具本身的质量。剑桥大学的做法值得借鉴。首先由校方提出开发思维能力评估量具的想法。构建初期, 由校方出面, 让入学申请者参加考试。渴望进入剑桥大学学习的申请者肯定会一丝不苟地完成测试任务。同时他们将录取学生的成绩记录在案, 可以观察日后在校表现, 进一步分析该量具的预测力。如此的想法还很难在本课题中实现。目前我们只能在自己力所能及的范围调动学生答卷的积极性。尽管困难很多, 但我们相信, 只要一丝不苟, 虚心求教, 就一定能够圆满完成课题。

基金项目:本研究获得国家社科项目《我国外语类大学生思

维能力现状研究》(编号:08B Y Y 026) 基金资助, 也得到北京外国语大学“211”工程(三期) 建设经费的资助。作者简介:文秋芳, 北京外国语大学中国外语教育研究中心主

任, 教授, 博士, 研究方向为应用语言学。

赵彩然, 河北大学外语教研部副教授, 硕士, 研究方向为二语习得与外语教学。

刘艳萍, 广西财经学院外语系副教授, 硕士, 研究方向为二语习得与外语教学。

王海妹, 山东财政学院外国语学院副教授, 硕士, 研究方向为二语习得与外语教学。

王建卿, 山西忻州师范学院外语系副教授, 硕士, 研究方向为应用语言学与教师教育。

参考文献

[1]A m e r i c a nP h i l o s o p h i c a l A s s o c i a t i o n . T h e D e l p h i R e p o r t E x e c u t i v e S u m -m a r y :Re s e a r c hF i n d i n g s a n dR e c o m m e n d a t i o n s P r e p a r e df o r t h e C o m -m i t t e e o nP r e -c o l l e g e P h i l o s o p h y [R ].(E R I CD o c . N o . E D 315423) . 1990.

[2]W a t s o n , G . a n d G l a s e r , E . C r i t i c a l T h i n k i n gA p p r a i s a l [M ].H a r c o u r t

B r a c e J o v a n o v i c h , I n c . , 1980.

[3]P a u l , R . &E l d e r , L .C r i t i c a l T h i n k i n g :Le a r nt h eT o o l s t h eB e s t

T h i n k e r s U s e [M ]. N e wJ e r s e y :P e a r s o nP r e n t i c e H a l l , 2006. [4]F a c i o n e , P . C a l i f o r n i a C r i t i c a l T h i n k i n g S k i l l s T e s t [M ]. M i l l b r a e C A :

T h e C a l i f o r n i a A c a d e m i c P r e s s , 1990.

[5]U n i v e r s i t yo f C a m b r i d g e . T h i n k i n gS k i l l s A s s e s s m e n t [M ]. U n i v e r s i t y o f

C a m b r i d g e L o c a l E x a m i n a t i o n s S y n d i c a t e , 2003.

[6]谷振诣. 论证与分析:逻辑的应用[M].北京:人民出版社, 2000. [7]谷振诣, 刘壮虎. 批判性思维教程[M ]. 北京:北京大学出版社,

收稿日期  2009-10-20责任编校  石春让

·

2010年1月外语教学J a n . 2010

                              

第31卷第1期F o r e i g nL a n g u a g e E d u c a t i o n V o l . 31N o . 1

我国外语类大学生思辨能力客观性量具构建的先导研究

文秋芳, 赵彩然, 刘艳萍, 王海妹, 王建卿

1

2

3

4

5

(1. 北京外国语大学中国外语教育研究中心北京100089; 2. 河北大学外语教研部河北保定071002;

3. 广西财经学院外语系广西南宁530003; 4. 山东财经行政学院外语系山东济南250014;

5. 山西忻州师范学院外语系山西忻州034000)

摘 要:为了解我国外语专业与非外语专业文科学生在思辨能力上是否存在差异, 笔者构建了测量大学生思辨能力认知维度的客观性量具, 并对来自3所高校的750名英语与非英语专业大学生进行了初步测试。量具的项目分析和信度检验结果表明, 量具信度尚可, 但题目偏易, 区分度不够高。本文报告了量具的构建过程、检验结果和相关领域专家的咨询意见, 为进一步修改完善思辨能力量具提供了前期数据。关键词:外语专业; 大学生思维能力; 思辨能力; 大学生思辨能力量具

中图分类号:H319  文献标识码:A   文章编号:1000-5544(2010) 01-0055-05

A b s t r a c t :I no r d e r t o f i n do u t w h e t h e r t h e r e i s a n y d i f f e r e n c e i n c r i t i c a l t h i n k i n g s k i l l s b e t w e e nf o r e i g n l a n g u a g e m a j o r s a n dt h e a r t s s t u d e n t s m a j o r i n g i n o t h e r s u b j e c t s , w ec o n s t r u c t ac r i t i c a l t h i n k i n gs k i l l s t e s t w h i c hh a s b e e nt h e na d m i n i s t e r e dt o 750s t u d e n t s i n c l u d i n g b o t hE n g l i s h m a j o r s a n d n o n -E n g l i s h m a j o r s f r o m t h r e e t e r t i a r y i n s t i t u t i o n s . Wh i l e t h e r e l i a b i l i t y c o e f f i c i e n t o f t h e t e s t i s f a i r l y a c c e p t a b l e , t h e r e s u l t s o f i t e m a n a l y s i s i n d i c a t e t h a t t h e i t e m s a r e s o m e w h a t e a s y a n d t h e i n d i c e o f d i s c r i m i -n a t i o nn e e d f u r t h e r i m p r o v m e n t . T h e p a p e r r e p o r t s h o wt h et e s t h a s b e e n c o n s t r u c t e da n dv a l i d a t e da s w e l l a s t h ec o n s u l t i n g a d v i c e f o r t e s t r e v i s i o nf r o mt h e e x p e r t s i n t h e f i e l d o f p s y c h o l o g y , p s y c h o l o g i c a l m e a s u r e m e n t , p h i l o s o p h y a n d a p l l i e d l i n g u i s -t i c s .

K e yw o r d s :f o r e i g nl a n g u a g e m a j o r ;c o l l e g es t u d e n t s ' c r i t i c a l t h i n k i n g s k i l l s ;c r i t i c a l t h i n k i n g s k i l l s ;u n i v e r s i t ys t u d e n t s ' c r i t i c a l t h i n k i n gs k i l l s t e s t

引言

为了解我国外语专业与非外语专业文科学生在思辨能力上是否存在差异, 外语专业学生的思辨能力发展是否受到外语学习内容及方法的影响, 文秋芳等申请到2008年国家社科项目“中国外语类大学生思维能力现状研究”(08B Y Y 026) 。根据研究计划, 我们应该首先构建测量大学生思辨能力量具的理论框架, 接着依据理论框架设计测量思辨能力的工具, 并对其进行信度与效度检验。

2008年5月我们完成了理论框架的构建, 并将此结果发表在《外语界》(文秋芳等, 2009) 。我们借鉴了国内外三个主要理论模型:特尔斐的双维结构模型(A m e r i -c a n P h i l o s o p h i c a l A s s o c i a t i o n 1990) , P a u l &E l d e r (2006) 的三元结构模型, 林崇德(2006) 的三菱结构模型, 并在此基础上提出了层级理论模型。该模型主张思辨能力包含元思辨能力与思辨能力两个层次, 前者位于高一个层次, 对后者具有影响力与控制力。思辨能力包括认知与情感两个维度。认知维度又可分解为分析、推理与评价三种分项核心技能。

2008年6月我们完成了构建测量认知维度客观性量具的先导性研究。本文将报告本次先导性研究的结果。全文分四部分。第一部分说明国外相关主要量具对我们的启示, 第二部分介绍构建本课题量具的过程, 第三部分报告本量具信度与效度的验证结果, 第四部分阐述专家咨询会议对本量具的评价及改进建议。

1. 国外思辨能力量具(认知维度) 构建的重要启示王建卿等(待发) 对现有主要思辨能力量具的题型做了较为详细的分析, 并探讨了对构建我国相关量具的启示。她们考察了国外6种测量思辨能力的主要量具, 其中5种由美国人开发, 1种由英国人开发; 最早的问世于20世纪80年代, 最新的于本世纪初。4种采用了客观题型, 2种采用了主观题型; 涉及的内容均与日常生活问题相关。她们归纳出的启示中有两条对我们设计本课题量具特别重要。第一, 量具中的测量题主要根据题型而不是依据思辨分项技能来设计。尽管国外多数量具构建者设计了理论框架, 对思辨能力有清晰定义, 有的甚至声称量具是根据思辨能力分项技能设计, 但实际情况并非如此, 因子分析也证明量具中的题目不能归类

·

为预设的分项技能。根据逻辑推理, 开发一个高质量的量具, 设计者应该基于所测构念(c o n s t r u c t ) 的分项因子逐一命题, 然后用因子分析来验证所测结果是否确实含有这些因子的存在。然而思辨量具不同于一般量具, 其中重要原因是, 思辨是一种复杂的高层次心理活动。我们在处理问题时, 通常需要多种分项技能交织使用, 单纯使用一种思辨分项技能难以成功完成任务。本课题也参照其它思辨能力量具的做法, 依据题型来设计题目。我们得到的第二个启示是, 限时的书面考卷难以同时测量元思辨能力与思辨能力, 因为元思辨能力是对思辨活动的评估、调控与修正。换句话说, 元思辨能力虽然非常重要, 但在实际测量时还有困难。依据这一启示, 本量具不涉及元思辨能力。

2. 量具的构建

本量具共有60道题, 分为难易度相似的A 、B两套试卷, 为的是避免让同一组学生完成60道题过于疲劳。60道题包含10种题型, 每种题型有6题。每套卷的30道题分为3组, 每组10道题, 内容不同, 但题型结构完全一样(每部分结构见表2的题型顺序) , 为的是每种题型的题目能够均等地分散在学生答题的不同时间段。

2. 1量具题目的来源

我们研究了多种量具、考试与练习, 从中筛选出合适的题目, 对其进行修改。为使题目的内容更加丰富, 同时符合中国文化背景, 我们对很多题目进行了较大改动。有的修改了题干, 有的修改了选项, 有的题干与选项均做了调整。少量自编的题目只是借用了别人的思路。表1列出了本课题量具中题目的来源及其数量。

表1. 量具中题目的来源

序号123456789

1011合计

名称

剑桥思维能力评估样题(见参考文献5) 加利福利亚高层次思辨技能量表(见参考文献4)

华生-格来泽高层次思辨评价(见参考文献2工程硕士考试(G C T ) 工商管理硕士考试(M B A ) 法律硕士入学考试(L S A T ) 公务员行政职业能力测试

思维能力测试网站(i n s i g h t a s s e s s m e n t . c o m ) 《批判性思维教程》(谷振诣、刘壮虎, 2006) 《论证与分析》(谷振诣, 2000) 自编

题量A 卷1222212313

1130

B 卷[1**********]30

的依据。从2007年起, 牛津大学也开始采用。相对与其他考试, 我们认为该考试比较成熟, 使用范围也比其他考试广, 同时从功能上看, 也比较正式。

2. 2主要题型

我们设计的量具共有10种题型。表2列出了各种题型的题目数及每种题型的举例。需要说明的是, 所举例子不是测试真题, 为的是真题日后能继续使用。

表2. 10种题型的题目数及举例

题型举例

1

识别假设

从北京到广州坐飞机最省时间。以上陈述预先假设了下面哪一项? 4A . 从北京到广州有航班。 B . 从北京到广州没有火车。 C . 坐飞机比乘坐其他交通工具更安全。 D. 北京是中国的首都。如果公司不给员工加薪, 员工的工作积极性会滑落, 生产能力也将随之降低, 利润也会减少。这意味着公司业务会陷入停顿。公司老板面临两个选择:要么给员工加薪, 要么等待公司6倒闭。下面哪句话可作为上述言论的结论? A . 如果提高了工资, 公司将摆脱困境。 B . 如果不加薪, 公司可能会倒闭。 C . 老板将不得不接受生产能力下降的事实。 D . 如果生产能力低下, 公司将陷入停顿。某公司开会对某项议案投票表决, 所有议员都参加。他们可以投赞成票、反对票或弃权。如果多数人投赞成票, 则议案通过。如果投赞成票的人数不超过一半, 就意味着议案不能通过。下面哪句话指出了上述言论的推理错误? A . 一些原本持赞成态度的人也许改变了想法, 最后投的是反6

对票。B . 如果所投票中大多数是反对票, 议案则无法通过。C . 在票数统计出来之前, 没人准确知道投票的结果。D . 一些投票者可能弃权, 这意味着赞成或反对票均有可能少于一半。有一项针对中学生饮酒试验的研究发现, 每天喝2罐或2罐以上啤酒的学生, 连续喝60天后, 有75%的学生被检测到肝功能退化的征兆, 该研究还声称已经排除了该结果出现的偶然性。

6如果以上陈述为真, 以下哪项推论正确? A . 饮酒与中学生肝功能退化有统计学上的关联。B . 饮酒能够导致中学生肝功能退化。C . 饮酒与中学生肝功能退化的关系不受性别影响。D . 研究者出于某种原因想证明青少年不该喝啤酒。某商店失窃, 甲、乙、丙、丁四人涉嫌被拘留。四人的口供如下甲:案犯是丙。乙:丁是罪犯。丙:如果我作案, 那么丁就是主犯。丁:作案的不是我。

四个口供中只有一个是假的。

6如果以上断定为真, 则以下哪项为真? A . 说假话的是甲, 作案的是乙。B . 说假话的是丁, 作案的是丙和丁。C . 说假话的是乙, 作案的是丙。D . 说假话的是丙, 作案的是丙。如果学校的财务部门没有人上班, 我们的支票就不能入账; 我们的支票不能入账, 因此学校的财务部门没有人上班。请在下列各项中选出与上句推理相似的一项。A . 如果太阳队主场是在雨中与对手激战, 就一定会赢。现在太阳队主场输了, 看来一定不是在雨中进行的比赛。6B . 如果太阳晒得厉害, 李明就不会去游泳。今天太阳晒得果然厉害, 因此可以断定, 李明一定没有去游泳。C . 所有学生都可以参加这一次决赛, 除非他没有通过资格赛。这个学生不能参加决赛, 因此他一定没有通过资格赛。D . 如果没有特别原因, 公司一般不批准职员的事假申请。公司批准了小陈的事假, 看来他一定有特殊原因。

2

识别论点

3

识别推理错误

4推论

5

逻辑推理

6

 (注:构建本量具所参考的文献, 有的太长不便直接列在表中, 我们就注出了该参考文献在后面所列文献中的顺序; 有的是公开测试, 每年都有, 难以将其一一列在参考文献中。)

匹配

相似推理

根据表1, 我们可以看出本量具中将近三分之一的题目(19题) 参考了《剑桥思维能力评估》样题, 原因是该量具研发于20世纪80年代中期, 经过多轮的效度检验, 从2001年起已经成为剑桥大学部分系科录取新生

妈妈让珍妮去商店买苹果。她根据昨天苹果的价格每个0. 6

元, 给了珍妮够买一定数量苹果的钱。珍妮来到商店后发现有

76促销活动, 如果买4个以上, 每个苹果可以便宜0. 1元, 她就可

以多买1个。她能买多少个苹果? A . 4 B. 5 C . 6 D . 9

8

运用潜在规则

接受挑战是认识自我的一个重要途径, 因为人在接受挑战中, 能够关注自己在情绪和行为方面的变化, 从而能更加有效地洞察到自身的弱点与不足。

以下哪个例子最能说明上述论证的潜在规则? A . 即便惧怕在公开讲话, 也应该接受演讲的邀请, 因为大家会佩服你的勇气, 你自身也能获得迎接挑战的满足感。6B . 在艰苦环境中的生活体验是人生宝贵财富, 知道了什么叫苦, 才能更珍惜今天的幸福生活。C . 成功的学习者应该了解自身的性格特点, 从而有效调控自己的学习。D . 运动员在比赛中不应只关注输赢的结果, 而应该通过比赛展现自身勇于挑战的运动精神, 并从中获得快乐与满足。新税法实施后, 低收入纳税人每年平均减少100-300元的纳

税负担。所以, 税收改革有利于低收入纳税人。

如果以下陈述为真, 哪一项能最有力地削弱上述论证? A . 新税收制度下, 许多低收入的纳税人将不再缴税。6B . 新税收制度下, 少量高收入的纳税人也减少了纳税负担。C . 税收改革取消了住房补贴, 使低收入纳税人平均每年多花800元租房。D . 税收改革简化了缴税程序, 为许多人节省了办理纳税手续的时间。这话是某权威人士说的, 所以一定是真的。下面哪一个项是对上述推理的恰当评价? A . 推论正确, 引用权威人士的意见使推理有很强的说服力。6B . 推论错误, 权威的言论不一定都是真, 不能代替逻辑论证。C . 推论正确, 因为它是以事实为基础得出的结论。D . 推论错误, 不能用某一特例来支持一个普遍适用的论断。

本测试共有30道题, 每题后有A 、B、C、D四个

选项。请选择您认为正确的答案填在答题卡2

上。答题时间共50分钟, 请不要在一道题上花费太多时间。3

这一部分说明答题的方式与时间。我们希望被测者能够用相似时间完成每道题目。

模拟练习有两个目的。一

为了帮助你熟悉本测试的题型, 请您先完成下

让学生进入状态, 二是让学

列3道练习题后, 再开始正式测试。

生熟悉题型与回答方式。

3. 3数据收集与分析

2008年6月8日-15日完成数据收集。数据收集分两步。第一步要求学生完成测试, 第二步了解学生对测试的态度与对测试题的评价。测试以班级为单位, 每班有两名教师监考, 一名为课题组成员, 另一名为任课教师。每班一半人完成A 卷, 一半人完成B 卷, 监考教师交叉发卷。测试开始时, 教师进行简短动员, 希望能够认真配合。

测试时间为50分钟。测试结束后A 校和B 校分别对5名和10名学生进行了访谈, 每人被访谈的时间约50分钟; C 校采用了书面问卷方式, 回答问卷大约花费了15分钟。访谈与问卷调查的目的均是为了了解他们完成测试题的态度, 以及对测试题的评价。具体问题有:1) 是否做过类似考题? 2) 答完题之后, 有什么感受? 3) 对题目难易度有什么看法? 4) 喜欢与不喜欢的题型是什么? 被访谈的学生还要求逐题评价难易度与喜好。为了感谢师生对本次数据收集的配合, 我们给参加测试的师生发放了小礼物。

数据分析分三步进行。第一步, 将数据输入到E X -C E L 表格中, 然后进行清理、核查, 并纠正错误。第二步进行项目分析。首先列出各题四个选项的分布情况, 再计算难易度与区分度, 以及内部一致性。难易度计算的公式是:P =得分/满分; 区分度计算公式:D=P 1(27%高分组难度)-P 2(27%低分组难度) (王汉澜1987) 。内部一致性运用S P S S S 中S c a l eR e l i a b i l i t y 程序计算, 所得结果a l p h a 值作为信度指标。

4. 测试题的难易度、区分度、信度与效度

表5列出了每道题的难易度、区分度, 以及两份试卷各自的平均难易度、区分度以及内部一致性的A l p h a 值。根据表5, A 卷与B 卷的难易度相同, 均为. 72。也就是说被测学生答题的正确率均为72%。两卷的区分度很相近, A 卷为. 27, B 卷为. 28。内部一致性稍有差异, B 卷的信度(. 68) 稍稍高于A 卷(. 64) 。总体说, 测试题偏易, 区分度不够高, 信度系数基本可以接受。

表5. 两份测试卷的项目分析结果

难易度

区分度

难易度

区分度

难易度

区分度

卷B 卷A 卷B 卷号A 卷B 卷A 卷B 卷号A 卷B 卷A 卷B 卷A 1. 75. 59. 24. 4711. 67. 70. 37. 2821. 76. 54. 41. 402. 63. 58. 26. 4312. 64. 733. 52. 84. 32. 3213. 49. 854. 83. 88. 28. 1614. 53. 755. 63. 91. 17. 1715. 96. 636. 87. 48. 07. 0516. 68. 57

. 31. 2322. 80

. 32. 2223. 67. 22. 1824. 90. 08. 4425. 72. 37. 3726. 80

. 85. 20. 28

. 87. 23. 18. 76. 19. 37. 94. 35. 11. 84. 27. 18

9

评价

附加论据对论证的影响

10

评价推理

3. 量具信度与效度检验3. 1被测学生

参加量具信度与效度检验的学校共有三所, 其中有省属重点院校(简称A 校) 、省属一般院校(简称B 校) 、省属近年内专升本院校(简称C 校) 。每个学校1、2、3年级英语专业与非英语专业各有1-2个班参加, 共涉及12个班级。非英语专业学生的选择首先考虑文、史、哲专业, 其次考虑经、法、管专业。测试学生的选择属于方便样本。表3列出了各校各类测试对象的具体数字。三校英语专业学生369人, 非英语专业学生381名, 合计750人。

表3. 3校英语与非英语专业参加测试的学生人数

年级1年级2年级3年级合计

英语专业

非英语专业

A 校B 校C 校合计A 校B 校C 校合计[***********]203474

5566

3938

114138

3053

3238107

5043134

112134381

专业英语,

汉语语言文学,

新闻学, 政治学, 法律, 财务管理

[1**********]5

3. 2测试组织者与监考者

本次测试组织者为课题组3名成员。她们负责出面与各任课教师联系, 并邀请他们协助监考。各班任课教师不承担具体任务, 但他们在测试现场有利于督促学生认真完成测试任务。测试组织者有统一的测试指导语。表4列出了测试导语及其我们的说明。

表4. 测试导语内容及其说明

内容

本测试旨在了解中国大学生与外国大学生在解决问题方式上的差异。希望各位认真完成1每道题, 其答题结果能够真实反映中国学生的情况。本测试数据只用于研究, 绝不做它用, 恳请各位给予配合。

说明

这一部分说明测试目的与数据用途, 恳请被测者的合作。显然我们隐藏了真正的研究目的, 为的是不让学生紧张, 同时也希望学生能够认真完成本次测试。

·

7. 96. 878. 89. 899. 63. 85. 60. 55

. 16. 1417. 75

. 16. 1418. 58. 17. 1619. 84. 37. 4020. 50

. 76. 32

. 64. 21. 65. 18. 69. 45

. 3027. 86. 50. 21. 22

. 4528. 65. 64. 40. 40. 2729. 86. 46. 24. 40. 3630. 55. 67. 41. 37A 卷内部一致性(A l p h a ) :. 64

B 卷内部一致性(A l p h a ) :. 68

确, 选项欠周全的地方。所有这些, 都对我们改进试题提供了一手资料。

5. 专家咨询会议对本量具的评价与改进建议先导性研究结束后, 我们分析了数据, 总结了研究结果, 随后还召开了专家咨询会议。邀请的专家有北京师范大学心理测量教授与心理学教授、北京大学哲学教授、北京外国语大学应用语言学教授与哲学教授。他们的主要意见可以归纳为四条。第一、研究思路正确, 从构建理论框架入手, 再开展量具的先导研究。第二、依据题型设计量具题目操作性强, 因为思辨能力的分项技能难以与测试题一一对应, 这和智能测试或语言能力测试命题的做法相似。第三, 目前参加量具先导研究测试的人数少, 代表性不够。建议对量具修订后, 扩大样本量, 增强代表性, 继续进行验证性研究。第四、对量具构建的艰辛要有足够的思想准备。目前我国没有现成的思辨能力量具, 并不是心理学界不具备能力, 只是量具构建付出太大, 又无法申请专利, 因此成果很难受到保护, 并得到应有的承认。

第一、二条意见肯定了本课题研究的大方向, 增强了我们对本课题研究的信心。第三条意见是对未来研究工作的建议, 我们自己也有同样的计划。我们会根据专家意见, 继续量具构建的研究。第四条强调了此项工作的艰巨性。我们认为这个提醒特别有必要。作为外语教学研究人员, 我们不需要将构建高质量量具作为本课题的终结目标。如果量具的信度和效度基本符合要求, 能够测量出外语专业与非外语专业文科学生在思辨能力上的异同, 量具建设的任务就可以暂告一段落。我们不要奢望该量具成为我国测量文科大学生思辨能力的权威工具, 毕竟我们课题组中没有心理学、心理测量学、哲学领域的专家。

6. 结语

我们将认真对量具中不符合要求的题目进行修订, 同时继续阅读文献, 对已有的题型进行调整, 适当增加新题型。我们会将试测的学校扩大到10所以上, 其中包括“985”或者“211”学校, 人数要增加到2000人以上。

通过本次量具构建的先导性研究, 我们深深体会到构建量具的复杂性与艰巨性。除了构建量具本身的难度外, 我们还有面临着一些非学术性的挑战。例如我们不知用何种理由来说服学生以严肃、认真的态度完成该项测试, 目前我们只是运用任课教师的影响力。但大学生都是成人, 都有独立思考能力。当他认为该测试与他无关时, 我们相信无论老师提出何种严格要求, 他都有可能敷衍了事, 草草完成。一旦态度不认真, 我们就难

(下转第63页)

A 卷难易度:M =. 72

B 卷难易度:M =. 72

A 卷区分度:M=. 27

B 卷区分度:M=. 28

  表6列出了两套试卷合在一起的难易度与区分度的分布情况。很显然, 两套测试题中偏易题目所占比例太大, 难易度在. 39以下的一题没有, 而理想比例应该是30%,区分度达到要求只有26题, 连总题目数的50%都未达到。总体上说, 这个量具不很理想。

表6. 两套测试卷合二为一的难易度与区分度的分布情况及其评价标准

60题

理想比例60题评价区分度标准10%>. 1918(30%)删除20%40%20%10%

. 20~.2410(16. 7不太好, 但可修改

. 25~.296(10%). 30~.3913(21. 7>. 4013(21. 7较好

很好

. 2~.390. 40~. 5914(23. 3. 60~. 7924(40>. 8022(36. 6  要想改进区分度在. 20~. 29之间的16道题, 我们需要查看学生对这16道题每道题4个选项的选择情况。很显然, 我们可以看出16道题中绝大多数的4个选项中都有1个或2个未发挥恰当的作用。例如A 卷的第2道题选项C 、A卷18题的选项A 和B 选项均未起干扰作用。我们对这16道题的修改, 将从这些未起干扰作用的选项入手。

表7. 区分度在. 20~.29之间16道题的四个选项分布情况

序号A 1A 2A 4A 14A 18A 22A 23A 26

a

[**************]4

b [**************]34

c [***********]

d [***********]

e *序号1A 270010123

A 29B 11B 12B 13B 19B 22B 27

a

[**************]23

b [***********]

c [**************]7

d [**************]80

e 45100001

 (注:e *代表未作任何选择的学生数)

我们还进行了尝试性因子分析, 试图检验该量具的效度。反复试验各种可能性, 最终仍旧以失败告终。一是不少难易度、区分度合适的题目进不了任何因子, 二是能形成因子的题目抽象不出恰当的类别, 最后只好放弃。这进一步验证了国外量具构建者所得到的结果, 即思辨量具难以进行因子分析。

前面提到为了了解被测学生对本测试的反应, A 校与B 校采用录音访谈、C校采用问卷收集了相关数据。尽管采用的方式不同, 但反应极其相似。90%以上的学生对整体测试评价积极, 他们认为题目有趣、新颖, 贴近生活, 涉及面广。他们对难易度的评价大致比例是:57%的学生认为难度“适中”,认为“难”和“易”的学生分别占14%和28%。针对测试, 学生还提出了一些建议, 如增加主观题型, 缩短题干长度等。通过逐题询问学生的做题思路, 我们也了解到题目中存在表述欠准

w r i t i n g [J ].J o u r n a l o f S e c o n dL a n g u a g eW r i t i n g , 1999(3) :265-289.

[15]R a d e c k i , P . M . &J o h n M. S .E S Ls t u d e n t r e a c t i o nt o w r i t t e nc o m -m e n t s o nt h e i r w r i t t e nw o r k [J ].S y s t e m , 1988(16) :355-365. [16]S c h m i d t , R .T h er o l eo f c o n s c i o u s n e s s i ns e c o n dl a n g u a g el e a r n i n g

[J ].A p p l i e dL i n g u i s t i c s , 1990(11) :129-158.

[17]S i l v a , T .T o w a r dt h e u n d e r s t a n d i n g o f t h e d i s t i n c t n a t u r e o f L 2w r i t -i n g :Th eE S Lr e s e a r c ha n di t si m p l i c a t i o n s [J ].T E S O LQ u a r t e r l y , 1993(27) :657-677.

[18]S t a n l e y , J .C o a c h i n gs t u d e n t s w r i t e r s t o b ee f f e c t i v ep e e r e v a l u a t o r s

[J ].J o u r n a l o f S e c o n dL a n g u a g e W r i t i n g , 1992(3) :217-233. [19]T s u i , A .B .M . &N g , M .D os e c o n d a r yL 2w r i t e r sb e n e f i t f r o m

p e e r c o m m e n t s ? [J ]. J o u r n a l o f S e c o n dL a n g u a g e W r i t i n g , 2000(2) :147-170.

[20]V y g o t s k y , L . S . M i n di n S o c i e t y :Th e D e v e l o p m e n t o f H i g h e r P s y c h o -l o g i c a l P r o c e s s e s [M ].Ca m b r i d g e , M a s s :MI TP r e s s , 1978. [21]Z a m e l , V .R e s p o n d i n gt os t u d e n t w r i t i n g [J ].T E S O LQ u a r t e r l y ,

1985(19) :79-101.

[22]Z h u W. I n t e r a c t i o na n d f e e d b a c k i nm i x e dp e e r r e s p o n s e g r o u p s [J ].

J o u r n a l o f S e c o n d L a n g u a g e W r i t i n g , 2001(10) :251-276. [23]邓鹂鸣, 刘 红, 陈 芃, 等. 过程写作法在大学英语写作实验

教学中的运用[J ].外语教学, 2004(6) :69-72.

[24]莫俊华. 同伴互评:提高大学生写作自主性[J ]. 解放军外国语

学院学报, 2007(3) :35-39.

[25]王 翔. 学生能够掌握互改技巧吗? [J ].国外外语教学, 2004

(1) :54-56.

[26]杨敬清. 提高英语写作评改有效性的反馈机制———实验与分析

[J ]. 外语界, 1996(3) :41-45.

[27]张 英, 程慕胜, 李瑞芳. 写作教学中的反馈对教学双方认知行

为的影响[J ].外语界, 2000(1) :24-28.

基金项目:本文系教育部十五规划首批研究资助项目研究成

果之一, 编号为01J A 740032。

作者简介:邓鹂鸣, 武汉大学外语学院教授, 英文博士, 主要研

究方向为应用语言学。

岑粤, 中南民族大学外语学院讲师, 研究生, 主要研究方向为应用语言学。

收稿日期  2009-02-31责任编校  薛旭辉

(上接第58页)

2006.

[8]林崇德. 思维心理学研究的几点回顾[J ]. 北京师范大学学报(社

会科学版) , 2006(5) :35-42.

[9]王汉澜. 教育测量学[M].开封:河南大学出版社, 1987. [10]王建卿, 文秋芳, 刘艳萍, 王海妹, 赵彩然(待发) . 国外思维能力量

具的评析与启示———我国外语类大学生思维能力现状研究的前期报告。

[11]文秋芳, 王建卿, 赵彩然, 刘艳萍, 王海妹. 构建我国外语类大学

生思辨能力量具的理论框架[J ].外语界, 2009(1) :37-43.

以评估量具本身的质量。剑桥大学的做法值得借鉴。首先由校方提出开发思维能力评估量具的想法。构建初期, 由校方出面, 让入学申请者参加考试。渴望进入剑桥大学学习的申请者肯定会一丝不苟地完成测试任务。同时他们将录取学生的成绩记录在案, 可以观察日后在校表现, 进一步分析该量具的预测力。如此的想法还很难在本课题中实现。目前我们只能在自己力所能及的范围调动学生答卷的积极性。尽管困难很多, 但我们相信, 只要一丝不苟, 虚心求教, 就一定能够圆满完成课题。

基金项目:本研究获得国家社科项目《我国外语类大学生思

维能力现状研究》(编号:08B Y Y 026) 基金资助, 也得到北京外国语大学“211”工程(三期) 建设经费的资助。作者简介:文秋芳, 北京外国语大学中国外语教育研究中心主

任, 教授, 博士, 研究方向为应用语言学。

赵彩然, 河北大学外语教研部副教授, 硕士, 研究方向为二语习得与外语教学。

刘艳萍, 广西财经学院外语系副教授, 硕士, 研究方向为二语习得与外语教学。

王海妹, 山东财政学院外国语学院副教授, 硕士, 研究方向为二语习得与外语教学。

王建卿, 山西忻州师范学院外语系副教授, 硕士, 研究方向为应用语言学与教师教育。

参考文献

[1]A m e r i c a nP h i l o s o p h i c a l A s s o c i a t i o n . T h e D e l p h i R e p o r t E x e c u t i v e S u m -m a r y :Re s e a r c hF i n d i n g s a n dR e c o m m e n d a t i o n s P r e p a r e df o r t h e C o m -m i t t e e o nP r e -c o l l e g e P h i l o s o p h y [R ].(E R I CD o c . N o . E D 315423) . 1990.

[2]W a t s o n , G . a n d G l a s e r , E . C r i t i c a l T h i n k i n gA p p r a i s a l [M ].H a r c o u r t

B r a c e J o v a n o v i c h , I n c . , 1980.

[3]P a u l , R . &E l d e r , L .C r i t i c a l T h i n k i n g :Le a r nt h eT o o l s t h eB e s t

T h i n k e r s U s e [M ]. N e wJ e r s e y :P e a r s o nP r e n t i c e H a l l , 2006. [4]F a c i o n e , P . C a l i f o r n i a C r i t i c a l T h i n k i n g S k i l l s T e s t [M ]. M i l l b r a e C A :

T h e C a l i f o r n i a A c a d e m i c P r e s s , 1990.

[5]U n i v e r s i t yo f C a m b r i d g e . T h i n k i n gS k i l l s A s s e s s m e n t [M ]. U n i v e r s i t y o f

C a m b r i d g e L o c a l E x a m i n a t i o n s S y n d i c a t e , 2003.

[6]谷振诣. 论证与分析:逻辑的应用[M].北京:人民出版社, 2000. [7]谷振诣, 刘壮虎. 批判性思维教程[M ]. 北京:北京大学出版社,

收稿日期  2009-10-20责任编校  石春让

·


相关文章

  • 外语教学期刊文章推荐
  • 外语教学期刊文章推荐(No.2013-5) <外语界>2013(6) 跨文化交际能力在外语教学中如何定位(胡文仲) 推荐标签:跨文化交际能力:外语教学 本文梳理了外语专业.大学外语和义务教育的教学大纲或教学要求对跨文化交际能力培 ...查看


  • 关于英语作文智能评阅系统的介绍及启迪_吴方
  • [教育求索] ··总第471期 关于英语作文智能评阅系统的介绍及启迪 □吴 (南京工业大学 方 南京 210000) 外语学院,江苏 摘要:本文评述近年来国内外作文自动评分系统中的关键技术,依据其英语作文测试中的效用和其可操作性对其进行分析 ...查看


  • 浅谈大学英语教学中的学生思辨能力培养
  • 龙源期刊网 http://www.qikan.com.cn 浅谈大学英语教学中的学生思辨能力培养 作者:廖芬芳 来源:<都市家教·上半月>2015年第06期 [摘 要]新一轮的大学英语教学改革对学生的实际运用能力提出了新的要求. ...查看


  • 外语类核心期刊论文摘要及评析
  • 读后续写--提高外语学习效率的一种有效方法 王初明 提要: 读后续写是结合阅读理解进行写作练习的一种方法.本文论证读后续写促学外语的功效,认为该法将语言输入与输出紧密结合,将语言的模仿与创造性使用有机结合,将语言的学习与运用切实结合,是提高 ...查看


  • 性别差异研究对英语教学的启示
  • 摘要:影响语言学习的因素包括:生理因素.性格差异.记忆能力差异以及学习策略等.通过调查,由于生理和心理上的差异,女性二语习得能力整体上高于男性.因此,我们提出了"因性施教"的教育理念.本文主要在研究英语习得者性别差异的理 ...查看


  • 美军各战区司令部国防语言建设
  • <国际研究参考>2014年第8期 美军各战区司令部国防语言建设 张锦涛王华丹周小丽** 美军为维护其全球利益,结合本国国家安全战略.国防战略和军事战略的调整变化,不断强化部队国防语言建设,全面提高军队履行岗位职责所需的国防语言能 ...查看


  • 认知翻译学视角下翻译教学及翻译能力解读
  • [摘 要]本文在认知翻译学视域下,建构动态教学模式.该模式以翻译过程为中心,学生为主导,依托学生的认知背景.认知能力与认知过程,在培养学生语言能力与双语转换能力的同时,培养学生的场景认知能力.翻译思辨能力,以提升学生的认知翻译思维意识. [ ...查看


  • 跨文化交际学研究概述
  • 1.5.1 跨文化交际学在美国 跨文化交际学之所以诞生于美国,是和当时的国际国内背 景分不开的.首先,因种族数量多.分布范围广.流动性大,美 国又被称为"大熔炉" .此外,美国在国际舞台上也扮演着非常 重要的角色,国际交 ...查看


  • [哲学思维与医学思维的异同]
  • 马克思主义基本原理概论课研究性学习报告 哲学思维与医学思维的异同 作者:吕元昊.江南.周飞 院系: 基础医学院 年级: 2011级 二〇一三年五月 哲学思维与医学思维的异同 目录 摘要 3 1引言 4 1.2相关概念 5 1.2.1哲学思维 ...查看


热门内容