心理测量学重难点考点归纳整理
一.心理测量的基本理论
(一)心理测量的基本理论
1)心理测量的基本概念
(1)心理测量的特点
①间接性——心理属性是内在的不可直接测量到的特质,但可表现为一系列具有内在联系的外显行为,测量者可以通过一定的方法测量这些外显行为,并由这些行为判别特质的性质。
②相对性——对人的行为进行比较,没有绝对的标准,亦即没有绝对零点,我们有的只是一个连续的行为序列。所有的心理测量都是看每个人处在这个序列的什么位置上,也就是只有顺序量表的特征。
③客观性——实际上就是测验的标准化问题。测验用的项目,说明、言语、态度、评分、分数转换、解释都需要标准化。
2)心理测量的特征与分类:
按所测量的心理特征分类:①能力测验②成就测验③人格测验
按接受测量的人数分类:①个别测验②团体测验
按测验目的分类①描述性测验②诊断性测验③预示性测验
按测验要求分类①最高作为测验②典型作为测验
按评价所参照的标准分类①常模参照测验②目标参照测验③潜力参照测验
3)经典测量理论及其模型
(1)基本定义
真分数:反映被试某种心理特质真正水平的数值;
其是一个在理论上构想出来的抽象概念,在实际测量中很难得到
观察分数:实测到的分数;
我们希望通过改进和完善测量工具及方法的方式来使得观察分数尽量接近真分数。 CTT 数学模型:观察分数与真分数之间是一种线形关系,并只相差一个随机误差 X =T +E 其中X 表示观察分数;T 表示真分数;E 表示随机误差(不包含系统误差)
(2)CTT 模型的三个假设公理
①若一个人的某种心理特质可以用平行的测验反复测量足够多次,则观察分数的平均值会接近真分数;即E(X)=T或E(E)=0 ;
②真分数和误差分数之间的相关为零,即ρ(T,E)=0 ;
③平行测验上的误差分数之间相关为零, 即ρ(E1,E2)=0;
平行测验:题目不同的测验测的是同一特质,且题目形式、数量、难度、区分度以及测查等值团体后所得分数的分布一致
(3)CTT 模型的方差关系
①在一次测量中,被试观察分数的方差等于其真分数方差与误差分数方差之和
222S X =S T +S E
②真分数变异还可以分成与测量目的有关的变异和与测量目的无关的变异
22S T =S V +S I 2
(二)测量的信度与效度
1)测量的信度
(1)信度的定义:信度是指测量结果的稳定性程度;
信度的三个等价操作定义:
①信度是一个被测团体的真分数的变异数与实得分数的变异数之比
②信度是一个被试团体的真分数与实得分数的相关系数的平方
③信度是一个测验与其任意一个平行测验的相关系数(这个定义具有实际意义)
(2)信度的三大作用 :①信度是测量过程中存在的随机误差大小的反应;随即误差越大,信度越低;
②信度提供了测量误差大小的估计值;见(P71的公式)
③信度可以帮助进行不同测验分数的比较,其公式:(见P72)
(3)信度系数的估计:
Ⅰ 重测信度:用同一个量表对同一组被试施测两次所得结果的一致性程度;
计算:其大小等一同一组被试两侧测验所得分数的皮尔逊积差相关系数; 实用的前提条件:
①所测量的心理特性必须是稳定的
②遗忘和联系的效果基本上互相抵消
③两侧测验的间隔被试的特质没有变化
Ⅱ 复本信度:两个平行的测验测量同一批被试所得结果的一致性程度;
计算:其大小亦等于两侧测验分数的皮尔逊积差相关系数。
前提:①有条件构造出两份或以上真正平行的测验
②被试有条件接受两个测验
Ⅲ 分半信度:将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度 也可以把对等的半测验堪称是在最短时距内施测的两个平行测验。
计算:先按照复本信度的方式计算出半个测验的信度,然后用斯皮尔曼-布朗公式校正r XX =2r hh 1+r hh )
2S X 若两个分半测验分数变异不等时则用r XX 2⎡(S a +S b 2)⎤=2⎢1-2⎥或S X ⎥⎢⎣⎦r XX =1-2S d
前提:①通常在只能施测一次或没有复本的情况下使用;
②由于将测验分半的方法很多,因此一个测验有多个分半信度值;
Ⅳ 同质性信度:也叫内部一致性系数; 测验内部所有题目间的一致程度
这里的一致性指有两层含义:一是所有题目都测的是同在一种心理特质,二是所有题目得分之间都具有较高的正相关;
测量单一特性是同质性高的必要条件,而非充分条件;反过来,同质性高才是测验册的单一特质的充分条件;
计算:K20公式:r XX ⎡K ⎤⎡(∑p i q i )⎤=⎢2⎥,K 为题目数,p i q i 为答对答⎥⎢1-K -1S )X ⎥⎣⎦⎢⎣⎦
错i 题的比例,Sx 为总分数的变异;(仅适用于0,1记分)
K21公式:( 见P78)
克龙巴赫α系数: r XX 2⎡K ⎤⎡(∑S i )⎤2=⎢S i 表示所有被试在i 2⎥,⎥⎢1-K -1S )X ⎥⎣⎦⎢⎣⎦
题上的分数变异;注意:α只是测验信度的下界的一个估计值,即α值大,必有较高的信度;但α值小,却不能断定信度不高;(不要求测验题目只是0,1记分,可以处理任何测验的内部一致性系数的计算问题)
Ⅴ 荷伊特信度:提出用方差分量比来描写测验内部一致性方法;公式见P80;
Ⅵ 评分者信度:多个评分者给同一批人的答卷进行评分的一致性程度
计算:评分者为2用积差相关或等级相关,大于2用肯德尔和谐系数进行估计;(见心理统计学相关内容)
(4)信度的影响因素与改进:(07年已考)
影响测量信度的因素:测量信度是测量过程中随机误差大小的反映,随机误差大,信度就低,随机误差小,信度就高;
(一)被式方面:单个被试而言:被试的身心健康状态,应试动机,耐心等会影响测量误差; 被试团体而言:被试团体异质时,全体被试的总分分布必然较广,以相关计算出来的信度就必然会大;
σ2E (见P115的解释r xx =1-2, 分数的分布越广,分母越大,从而r xx 越大) σx
(二)主试方面:主试不按照指导手册中的规定施测,故意制造紧张气氛,则会使信度大大降低;
(三)施测情境方面:考场是否安静,光线,通风情况都可能影响信度;
(四)测量工具方面:试题的取样,试题之间的同质性程度,试题的难度等是影响测验稳定性的主要因素;
(五)两次施测的时间间隔:时间间隔越短,其信度越大,时间间隔越长,信度可能越小; 提高信度的方法:
①适当增加测验的长度:r xx =k r xx /[1+(k -1) r xx ]
②使测验中试题的难度接近正态分布,并控制在中等水平
③提高测验试题的区分度
④选取恰当的被试团体,提高在同质性较强的亚团体上的信度
2)测量的效度
(1) 效度的定义 效度:是指一个测验或量表示既能测出其所要测的心理特质的程度; 使用效度时应注意:(1)效度是一个相对的概念,这种相对性表现在两个方面
①效度是相对于一定的测量目的而言的;
②心理测量不可能达到100%的准确,只能达到某种程度上的准确;
(2)效度是测量的随机误差与系统误差的综合反映;
(3)判断一个测量是否有效要从多方面收集证据;
22222效度=Sv/Sx=rxy; 其中,rxy 为效度系数;S v 代表有效变异数,S x 代表总变异数;
效度的操作定义:效度是总变异中由所测量的特性造成的变异所占的百分比;
(2) 效度的估计
Ⅰ 内容效度:一个测验实际测到的内容与所要测量的内容之间的吻合程度;
其中所测量的内容包括:欲测的知识范围以及该范围内各知识点所要掌握的程度两方面; 适用范围:内容效度主要应用于成就测验,也适合于某些用于选拔和分类的职业测验
而不是和能力和人格测验 (注意表面效度:最佳行为测验要求有较高的表面效度;其他测验希望表面效度低;) 确定方法:(主要是逻辑分析法,思路是,请专家对测验项目与原定内容范围的吻合程度做出判断) ①明确欲测内容的范围,包括知识范围和能力要求两个方面
②确定每个题目所测得内容,并与测验编制者所列的双向细目表对照
③制定评定表,考察题目对内容的覆盖率及其比例和内容的适当性并判断题目难度与能力要求间差异
统计计算(克隆巴赫提出):从同一内容中抽两套平行测验对一批被试测验, 两次相关高说明有效度(除非两个测验偏向同一方面); 也可以用再测法,通过后测成绩与前测成绩比较,如果后测成绩显著优于前侧成绩,说明所测内容正是被试新近学习的内容;
Ⅱ 结构效度:测验能说明心理学上的理论结构或特质的程度,或用心理学上某种结构或特质来解释测验分数的恰当程度
结构指用来解释人类行为的理论框架或心理特质,是心理学中抽象的假设性概念、特性或变量。
特点:
①结构效度的大小首先取决于实现假定的心理特质理论
②当实际测量的资料无法证实我们的理论假设时,不一定表明该测验结构效度不高 ③结构效度是通过对测量内容的选择的证据累计起来确定的,不是靠单一数量指标描述的
确定方法:
①提出理论假设,并把假设分解成一些细小的纲目
②依据理论框架,推演出有关测验成绩的假设
③用逻辑的和实证的方法来验证假设
应用范围:主要用于治理测验、人格测验等
估计方法:
①从测验内部寻找证据,先考察测验的内容效度;其次分析被试的答题过程;再次,计算同质性信度来检验结构效度,当然测验同质只是结构效度高的必要条件;
②在测验间寻找,将新编测验与已知有效的测验比较:相容效度法;区分效度法; 以及因素分析法;
③考察测验的实证效度:有两种做法,一种是根据效标把人非为两类,考察其得分的差异; 另一种是根据测验的得分把人分为高分组和低分组,考察这两组人在所测特质方面是否确有差异;
④多种特质-多种方法矩阵法;
Ⅲ 实证效度:一个测验对处于特定情景中的个体的行为进行估计的有效性,也就是说以实践效果作为检验有效性的表准
根据效标资料搜集的时间差异,实证效度可分为同时效度和预测效度两种。
效标是衡量一个测验是否有效的外在标准,它是独立于测验并从实践中直接获得的我们感兴趣的行为;
确定方法:①明确观念效标
②确定效标测量
③考察测验分数与效标测量的关系
估计方法:
①相关法——计算测验分数与效标测量的相关系数
②区分法——被试接受测验后,让他们工作一段时间,再根据工作成绩的好坏分成两组。这时再回过头来分析这两组被试原先分数的差异,将成绩与分数比较
③命中率——决策的命中率是测验有效性的较好指标;
(3)效度的影响因素与改进
影响因素:测验的构成,测验的实施过程、被试情况、所选效标的性质、测量的信度 (测验长度与效度的公式r (kx ) y =
原来的K 倍后,新测验与效标的相关;
K 为增长的倍数;
r xy 为原测验的效度;
) r xx 为原测验的信度;
提高方法:
①精心编制测验量表,避免出现较大的系统误差
②妥善组织测验,控制随机误差
③创设标准的应试情景,让每个被试都能发挥正常的水平
④选择正确的效标、定好恰当的效标测量,正确地使用有关公式;
3)信度与效度的关系
222根据公式S X ,可以得到信度与效度的关系如下:S v 是有效变异;S I =S V +S I 2+S E 22Kr xy ) 、其中r (kx ) y 是测验增长至K (1-r xx +Kr xx )
是系统误差的变异;S E 是随机误差的变异;前两者之和为真分数变异S T ;
①信度高是效度高的必要而非充分条件
②测验的效度受它的信度制约
(三)心理测量的误差
1)测量误差的定义
测量误差:在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应;
心理测量的误差包括随机误差和系统误差两种。
随机误差:由与测量目的无关的、偶然因素引起的、而又不易控制的误差
它使多次测量产生不一致的结果,其方向和大小的变化完全是随机的,只符合某种统计规律。
系统误差:由与测量目的无关的变量引起的一种恒定而又规律的效应
这种误差稳定的存在与每次测量之中,尽管多次测量结果一致,但仍与真实值有所差异。
2)随机误差的来源及控制
(1)来源
①测试环境——温度、光线、噪音等
②测试时间——时间安排不统一,或测试时间过短
③主试因素——年龄、性别、穿着、言谈举止、表情,主试的数量过多也会造成压力 ④意外干扰——停电、巨响、有人生病、作弊、测验用品出问题、粮食涨价、火星人入侵
⑤评分计分——主观题评分不客观,有个人偏好
(2)控制
22
测验准备尽可能充分细致,实测个方面尽量标准化;
3)系统误差的来源及控制
(1)来源
①测验难度——过高或过低
②测验内容——选题不当、题数太少、模棱两可、表述不清
③被试因素——应试动机变化、测验焦虑、测试经验、学习与发展、反应倾向、生理因素
(2)控制
题目编制认真用心,测验标准化
4)测量误差的估计
S E =S r tt 为信度系数;
(四)心理测验的项目分析
1)题目的难度
难度:测验项目的难易程度,一个测验项目,如果大部分被试都能答对,则该项目的难度就小,反之亦然测验的记分方法不同,项目难度的计算方法也不同。
(2)计算
Ⅰ 二分法记分项目的难度——以通过率来表示(注:这里通过率的概念和我们通常理解的难度相反)
P =N 其中P 代表项目难度;N 为全体被试数;R 为答对通过该项目的人数
当被试人数较多时,将被试依照测验总分从高到低排列,用总分最高的27%作为高分组,总分最低的27%作为低分组
P =P H +P L 其中P H 和P L 分别代表高分组合低分组的通过率 2
Ⅱ 非二分法记分项目的难度——P =x
x max 其中x 为被试在某一项目上的平均分;x max
为该项目的满分
(3)难度水平的确定
进行难度分析的主要目的是为了筛选项目,项目的难度水平多高合适,取决于测验的目的及性质:
①水平考试:目的在于了解被试某方面知识技能的掌握情况,不必过多考虑难度,认为重要的内容都可选用,甚至极高极低通过率的题
②选拔考试:目的在于选拔并录用人员,项目难度易控制在录取率左右,即较多地采用那些难度值接近录取率的项目
(4)难度的等距变换
普通难度指数是顺序变量,无法指出难度之间差异的大小,我们设法将其转变为等距量数:
①根据正态分布曲线将难度P 作为正态曲线下的面积,转换成Z 分数
②为避免小数和负值,再用公式进行变换∆=13+4⋅Z (注:可以看出新难度与我们通常理解的难度相同)
(5)难度对测验的影响
①难度过大和过小都造成测验分数偏离正态,而心理特质和我们经常使用的统计分布却都是正态的;难度过大,分数集中在底分端,呈正偏态分布;难度过小,分数普遍较高,集中在高分端,呈负偏态分布;
②过难或过易题目的存在都会使得测验分数相对集中,造成分数全距缩小
2)题目的区分度
(1)定义
区分度:测验项目对被试心理品质水平差异的区分能力
具有良好区分度的项目,能将不同水平的被试区分开来,反之则不能。
(2)计算
Ⅰ 鉴别指数法——适合于二分法记分的项目
D =P H -P L 其中P H 和P L 分别代表高分组合低分组的通过率(从分数分布的两端各区27%的被试)
D 0.4 很好
D 0.3-0.39 良好,修改会更好
D 0.2-0.29 尚可,仍需修改
D 0.19以下 差,必须淘汰
Ⅱ 相关法——以项目分数与效标分数或测验总分的相关作为项目区分度的指标 常用的有:点二列相关、二列相关、φ相关、积差相关;
3)题目的综合分析和筛选
①难度越接近0.5,项目潜在区分度越大,因此整个测验的难度平均应保持在0.5左右 ②测验中各项目之间有一定相关,为使成绩分布均匀,项目难度的应广一些,梯度大一些,最好成正态分布
③每项题目理想的区分度都应在0.3以上,至少是0.2
4)区分度与难度的关系
测量书P124
5)区分度的相对性
(1)不同计算方法所的区分度不同;
(2)样本容量大小影响相关法区分度值的大小;样本越小,统计值越不可靠,所以算出r 后,应进行统计检验;
(3)分组标准影响鉴别指数值:分组越极端,D 值越大;
(4)被试团体的同质性程度影响区分度值的大小:被试团体越同质,区分度越小;
(五)心理测验的编织技术
1)心理测验编制的基本程序
(1)确定测验目的;制定编题计划;编写测验项目;预测与分析;合成测验;测验标准化;鉴定测验;编写测验说明书;
其中:确定测验目的:要解决三个问题:明确测量对象(测哪些个体或团体);
确定测量目标(是测什么心理功能,是能力,人格还是其他); 明确测量用途(是描述性的,还是诊断性的);
(2)制定编题计划(即测验目标与命题双向细目表):制定编题计划时要明确的信息有两个:第一,全面而具有代表性的测验内容,不致使测题偏离了应测量的范围;第二,对各个
内容点的相对重视程度,通常用百分比来表示;
编题计划作用:明确指明了应该编写哪些方面的测验项目以及编多少个项目;在计分时,可按计划中百分比确定每类测验项目的分数标准;
(3)编辑测验项目(题目编制技术)
收集测验资料(丰富,具有普遍性,有趣味性);
测验项目形式(考概念,原理用简答题,考察综合运用知识,论文题等);
编写测验项目:编写的测验项目应对所预测的心理品质具有代表性;
取材范围与编题计划中所列范围相一致;
测验项目应具有一定的难度分布范围;
测验项目的初编数量应大于最终所需数量,以便于筛选与编制复本; 测验项目的说明要简洁;
编写测验项目的用于应浅显明了;
(4)预测与分析
预测:目的在于或的被试对测验做何反映的资料
注意的问题:测验的被试样本应取自正式施测的总体;
预测时的情景应与正式测验的情境一致;
测试的时间可以适当延长,以便使被试能将所有试题答完;
对被试的反应应加以记录;
(5)合成测验
测验项目的选择:测验的性质:选择那些能够测量所要测量的东西的项目;
测验项目的难度,选拔性的要求难度大些,考察性的难度不可太高,人格测验不要求有难度;
测验的区分度,越高越好;
测验项目的编排:在测验的开头应有一,两个比较简单的题目,使被试熟悉作答程序,解除紧张情绪,建立信心,尽快进入答题的情境,测验项目的总体编排原则是,先易后难,避免被试在难题上耽误时间,以影响后面的答题过程,在测验最后可以有少量难度较大的题目,以测出被试的最高水平。项目的编排方式有:并列直进式;混合螺旋式;
(6)测验的标准化(已考)
测验内容;
施测过程:相同的测验情景,相同的指导语,相同的测验时限;
测验评分;
测验分数的解释;
(7)鉴定测验
信度和效度两方面;
(8)编写测验说明书;
(六)心理测验的施测
1)测验的设计
测验设计:对测验的结构和内容、可达到的目的、结果可提供的信息、使用范围、心理学指标等进行总体设计
2)施测的程序与步骤
①施测前的准备工作:准备好测验材料;熟练掌握施测手续;熟记测验指导语并能用口语清
除流利地说出来;
②指导语:主要作用是使受试者按正确的形式对题目做出反应;指导语应保持中立,不倾向于答案的任何一种方向;
③测验情景:测验场地的通风,光线,噪音,座位等都会影响测验分数;
④测验焦虑:一般能力与焦虑成反比;抱负水平与焦虑成正比;竞争性测验焦虑较高;轻微的焦虑会增进测验效果;
⑤与受测者建立良好的协调关系;
⑥评分技术
测验分数的解释:
就解释类型而言:叙述的解释;溯因的解释;预测的解释;评价的解释;
解释分数时应遵循以下原则:①主试应充分了解测验的性质与功能;
②对导致测验结果的原因的解释要慎重,谨防片面极端; ③必须充分估计测验的常模和效度的局限性;
④解释分数应参考其他资料
⑤对测验分数应以一段分数来解释
⑥对来自不同测验的分数不能直接进行比较
如何向受测者报告测验分数:①使用当事人可以理解的语言;
②要保证当事人知道这个测验施测什么的;
③如果分数是常模为参考的,就要使当事人知道它是和什么团体比较的;
④要使当事人认识到分数只是一个估计;
⑤要使当事人知道如何运用它的分数;
⑥考虑分数解释将给受测者带来什么影响;
⑦测验分数向无关人员保密;
⑧对低分者的解释要小心谨慎;
⑨报告分数时应设法了解当事人的心理感受;
(七) 测验常模
1) 常模与常模团体
(1)定义:常模:根据标准化样本的测验分数经过统计处理而建立起来的具有参照点和单位的测验量表;
常模团体:是具有某种共同特征的人组成的一个群体;
(2)确定常模团体的注意事项
①群体构成的界限必须明确;
②常模团体必须是所测群体的一个代表性样本;
③常模团体的取样过程必须明确且有详尽的描述比较时;
④样本大小要适当:样本误差与样本大小成反比,在其他条件相同下,样本越大越好;但还要考虑人力,物力,财力。
⑤常模团体必须是近时的;
⑥注意一般常模与特殊常模相结合;
2)分数转换与合成
(1)分数转换 (这部分内容请参考《心统》学习)
原始分数:被试在接受测验后,根据测验的积分标准,对照被试的反映所计算出的测验分数;
其反映了被试作答的正确程度,但不能直接反映出被试之间的差异状况和被试在总体分布中的位置。
导出分数:在原始分数转换的基础上,按照一定的规则,经过统计处理后获得的具有一定参考点和单位且可以相互比较的分数;
分数转换:按某种规则将原始分数转化为导出分数的过程
Ⅰ 百分等级——在一个群体的测验分数中,得分低于这个分数的人数的百分比 计算:未分组分数资料:P R =100-100R -50其中P R 为百分等级,R 为排名顺序的N
序号,N 为被试总人数
分组分数资料:团体人数过大分数以次数分布表的形式呈现时:P R =⎤100⎡(X -L )⋅f +F ⎢b ⎥ N ⎣i ⎦
其中X 为被试原始分数,L 为被试所在组分数下限,f 为被试所在组次数,i 为组距,F b 为被试所组以下各组次数和。
评价:百分等级是一种相对位置量数,具有可比性,且具有易于计算,解释方便等优点;另外百分等级不受原始分数分布状态的影响,即使是非正态,也不会影响百分等级的解释能力; 但也有缺点:首先单位不等;其次,百分等级之具有顺序性;再次,百分等级是相对于特定的被试团体而言的,解释时不能离开特定的参照团体。
Ⅱ 标准分数——一种具有相等单位的量数,又称Z 分数,即Z =X -X S
由于Z 分数常出现小数和负值,我们可进一步将其转变为T 分数:T =10Z +50 Ⅲ 标准九分数
(2)分数合成
分数合成:将几个分数或几个预测源组合起来,以获得一个合成分数或作总的预测; 具体包括三种情况,即:项目的组合、分测验的组合、测验的组合
Ⅰ 临床诊断(直觉合成)
这种根据直觉的经验,主观地将各种因素加权,而获得结论或预测的方法叫临床诊断 优点:①具有高度和综合性②具有灵活的针对性 缺点:①易受决策者的偏见影响②缺乏精确的数量分析
Ⅱ 加权求和——将各测验分数相加或乘以加权系数后相加
前提:各测验所测特质间有互相代偿作用,这些测验的分数又是连续性资料,并能大体同时获得
Ⅲ 多重回归——研究一种事物或现象与其他多种事物或现象在数量上相互联系和互相制约的统计方法
很多情况下,需要利用测验结果对预测效标做出估计,即求出效标估计与预测变量之间的数量关系式:
=a +b x +b x + +b x Y 1122n n
范围:适合于所测特质具有某种程度的互偿性
Ⅳ 多重划分——在各个特质上都确定一个标准,从而把成绩划分为合格与不合格两类;所有测验按顺序实施,通过一个才能进行下一个,完全合格要全面达标
3)常模编制
①确定有关的比较团体
②获得该团体成员的测验分数
③把原始分数转化为量表分数
4)几种常用的常模
Ⅰ 心理年龄
首先寻找并设计出可区分各年龄儿童智力的题目,每个题目放在大部分的儿童都能成功地完成的那个年龄水平。把每个年龄水平的题目综合得到一个可评价儿童智力发展水平的年龄量表。一个儿童在量表上所得的分数,就是最能代表他的智力水平的年龄,称智龄。
Ⅱ 年级当量
将被试的测验成绩与某一年级的学生的平均分数做比较,而说明相当于某一年级水平。
Ⅲ 教育商数
EQ =
就 教育年龄EA ⨯100=⨯100 其中教育年龄是指某岁儿童所取得的平均教育成实际年龄CA
Ⅳ 成就商数
将一个学生的教育成就与其智力作比较,反映学生的努力度和教师的教学效果: AQ =教龄教龄/实龄教育商数(EQ )⨯100==⨯100 智龄智龄/实龄智力商数(IQ)
成就商数不仅可以用来评价学生的努力程度,还可以评价教师的教学效果与质量;前者是因为智力与学业成就二者不等价,智力不够理想,若刻苦努力,仍可获得好的学业成就,此时他的成就商数就高;反之,成就商数低,说明该生不够努力,所获得的成就与他的智力不相称;对后者,如果学生的平均教龄低于智龄,说明教学存在问题;
(八)标准参照测验
1)标准参照测验的定义与作用
标准参照测验:根据某一明确界定的内容范围(是首要的)而缜密编制的测验,并且被试在测验上所得结果也是根据某一明确界定的行为标准直接进行解释的;
作用:了解个体在所规定的测量内容上的行为水平,因此其出发点是个体本身的绝对水平而不再是个体间的水平差异;
2)标准参照测验的题目分析
(1)内容范围的确定
①内容范围具有明确的边界
②范围的内容可进行细致分类,有明确的结构
③特定测验目的的确定常为内容范围的界定提供依据
(2)内容效度分析
对构成测验的每一个题目是否合适以及有效进行分析,即检验题目与测验内容范围所要求的内容与目标的一致性,这一过程缺乏客观的统计分析手段,通常采用专家评定的方法。
(3)测验的预测
①前测-后测方法——在一组被试接受教学过程前后各施测一次
②已接受教学组-未接受教学组方法
③对照组方法——由教师评定是否掌握知识的两组
(4)难度分析
用通过率来表示。
(5)区分度分析
①鉴别指数:掌握组在某项目上的通过率减去未掌握组在该项的通过率,即D =P A -P B ②个人获得指数:前测-后测法中,可获得在前测中错误回答项目而在后测中能够正确回答的被试的人数的比例;
③相关系数:项目的分和测验总分之间的一致性程度
3)标准参照测验的信度与效度
(1)信度
①分类一致性信度
考察被试在同一测验的两次施测中是否被分在同一类中
P 0=(a +d )+b +c +d
②荷伊特信度
(2)效度 ①内容效度——照搬常模分析中的内容效度分析方法;(评估一测验的内容效度 ,都依赖于两个条件:一是测验有明确界定的测验内容;二是测验每一题目的内容效度的分析)
②效标关联效度——运用刚才在信度中使用的四格表的分析法,只不过这里的测验AB 分别指预测源测验和效标测验;
4)标准参照测验的分数解释
(1)专家判定法(Nedlsky 方法和Angoff 方法)
在测验的内容范围明确界定的基础之上,由专家来判断处于临界水平的被试在每一题目上正确回答的可能性,进一步一次为标准确定分数分界点。
临界水平被试:那些刚由未掌握水平转入掌握水平的被试,这些被试实际上是在专家的想象中虚拟出来的
(2)效标组预测法
①临界组法:由专家判定和选择一组正处于临界水平的被试,将测验施测于该组被试,计算他们在测验上的平均成绩,以体现测验的内容范围所要求的临界水平,因而可以视之为测验分数分界点的估计值
②对照组法:采取专家判定的方法来事先确定两组被试,一组被明确判定为掌握组,
另一组则被明确判定为非掌握组,那些不太容易被判定的被试一概提出。对这样两组被试施测测验,可以得到原始分布图,途中两条曲线的交叉点即为测验分数的分界点
(九) 心理测量理论的新发展(非重点)
1) 经典测量理论的局限
①对信度的估计精度不高,平行测验难以实现
②误差指标笼统单一,仅把测验分数划分成真分数和随机测量误差两部分
③各种参数的估计对样本抽样的依赖性太大,如题目的难度是相对考生而言的
④参数指标之间的配套性较差
⑤真分数与观测分数之间存在线性关系的假定不合理
2) 项目反应理论: 见华中(北京) 师大参考书
潜在特质:没有明确的物理与生理属性的,制约人的行为的心理特征
项目反应理论:以受测者回答问题的情况,通过某种数学函数曲线,推算出受测者某个心理特质变量大小
所依据的函数叫做项目特征函数。
项目反应理论的优点:
①题目参数的跨群体不变性(题目的特征函数是固定的
②潜在特质量表的可选择性
③参数设计的科学性
④信息函数概念的引进与信息函数的可加性
3) 概化理论
概化理论的基本思想:任何测量都是依赖于特定的测验情景关系的,测验情景关系中的测量目标、测量侧面、测量侧面的水平都是会变化的,它们的变化会引起测验误差的来源、测验误差的大小、真分数的种类以及测验信度的变化,同时测验分数的解释范围也发生变化。概化理论的统计分析分为两个阶段,即G 研究和D 研究。
(1)G 研究
观察领域:研究者设计的测验情景关系及用一定方法采集的测验数据
G 研究在观察领域数据上进行,其目的是要定量估计观察领域中测量目标的方差以及各测量侧面所产生的测量误差方差。从统计角度说就是要分解观察数据总体方差,估计各因素期望方差,采用的方法是方差分量分析法,把总体方差分解为测量目标主效应方差、测量侧面主效应方差、各种交互效应方差。
(2)D 研究
D 研究称作决策研究,其目的是利用G 研究的结果数据,在原设计的测验情况关系范围之内,分析比较各种可能的测验方案,测验工作者可以根据分析结果,结合可能的实施条件优选实际测验方差。D 研究最终提供各种测验方案下的测验误差估计值。
4) 测验等值
测验等值:通过对考核同一心理品质的多个测验形式做出测量分数系统转换,使得这些不同测验形式的测验分数之间有可比性
测验等值可使不同形式的测验分数均对应起来,测验主持者可以任意指定其中的一个分数形式作为基准,而使其他形式的分数都转化到这个基准形式上。
(1)测验等值的条件
①同质性——被等值的不同测验形式所测的必须是同一种心理品质且内容与范围基本相同
②等信度——被等值的不同测验形式必须有相等的测验信度
③公平性——考生参加被等值的不同测验形式中的任一个测试,等之后的结果都是一样的
④可递推性——不同递推途径所得到结果相同测验x 与测验y 的等值转换关系为:f (x ) =y , 测验y 与测验z 的等值转换关系, g (y ) =z , 那么一定有测验x 与测验z 之间的关系h 存在, h (x ) =g (f (x )) =z
⑤对称性——测验间的等值转换关系是双向的即, 如果f (x ) =y , 那么从y 出发, g (y ) =x , 则一定有f =g -1
⑥样本不变性——两测验的转换关系是内在的,不随所使用样本的变化而变化
(2)计算方法
①等百分位等值:如果两个分数对于任何一个被试群体都有相同的百分等级,那么这两个分数就被认为是等值的
②线性等值:如果两个分数在各自的群体内标准分数相等,这两个分数被认为是等值的
A =Sy /Sx x -y - 改写成: y=Ax+B 其中 =B =-A Sx Sy
四. 心理测验及其应用
(一) 成就测验
1) 成就测验的定义
成就测验:对个体在一阶段的学习或训练之后知识、技能的发展水平的测定;
与其他心里测验不同的是,成就测验希望看到练习和发展的效应;与能力测验一样,成就测验属于最佳行为测验。
2)成就测验的编制
①确定测验目的,选定测验编制的方法
②分析测量目标,拟定测验编制计划
③编题征题与选题组卷
④调查测验质量参数,编制测验常模
⑤编写测验指导书,正式出版发行
3)成就测验的标准化
①命题组卷标准化
②标准化施测
③评分标准化
④测验分数解释标准化
(二)智力测验
1)智力测验的定义
智力测验:以一定的智力理论为基础,通过测验得到智力的量化数据;
比率智商:用智龄和实际年龄的比率来代表智商。
2)个体智力测验
(1)比内量表
错误!未找到引用源。 比内-西蒙量表
1905年量表:出于诊断异常儿童智力,是世界上第一个智力量表,包括30题;(07年考过)
1908年量表,这是第一个年龄量表,测验增加至59题,以智力年龄来评估个体智力; 1911年量表,增设了一个成人题目组;
错误!未找到引用源。 斯坦福—比内量表(推孟terman )
1916年量表(适合3--13岁), 在比西量表的基础上又增加了39个新项目;首次引入比率智商,以IQ 作为个体智力水平的指标;
1937年量表(1.5--18岁),由L,M 型两个等值量表构成,偏重于社会经济地位较高家庭的儿童,未能全面反映美国当时人口状况;
1960年量表(2岁--成人),汇集了L,M 的最佳项目而成LM 型单一量表,舍弃比率智商,引入离差智商,μ=100;σ=16;
1972年量表,取样代表性有了很大的提高;
错误!未找到引用源。 中国比内测验
测验共51题,每题代表4个月,从2--18岁,每个年龄3道题,使用离差智商;
(2)韦克斯勒量表
错误!未找到引用源。 韦氏成人智力量表
1939年,W-B Ⅰ(10--60岁),是第一个成人智力量表;
1949年,W-B Ⅱ(10--60岁);
1955年,韦氏成人智力量表,WAIS ;
1981年,修订版WAIS-R (16--74岁);每个分测验独立记分,在转化为μ=10;σ=3的标准分数;最后在转换成μ=100;σ=15的离差智商分数;
W-B,WAIS,WAIS-R 都由11个分测验组成;6个言语分量表,5个操作分量表;
错误!未找到引用源。 韦氏儿童智力量表
WISC 量表;是韦氏成人智力量表向较低年龄水平的扩展;
1949年在W-B Ⅰ基础上修订而成;保留了原来的测验形式,降低了难度,增加了一个迷津分测验,测量知觉的速度和准确性;采用离差智商代替了比率智商;
1974年,发表WISC-R(6--16岁) , 共12个分测验, 构成言语和操作量表, 其中背数和迷津测验是备用测验;
错误!未找到引用源。 韦氏幼儿智力量表
WPPSI 量表,适合于4--6.5岁的儿童;
包括11个分测验,其中3个分测验是为适应幼儿特点而编制的,另外8个与WISC 相同; WPPSI 也给出了言语智商,操作智商,总智商;
3)团体智力量表
(1)陆军测验(第一个团体智力测验)
陆军甲种测验:由8个分测验组成;
陆军乙种测验:属于非文字测验,由7各分测验组成;
(2)瑞文推理测验:源于Spearman 的智力二因素理论;是非文字性的图形测验;均由两种题目形式组成,一种是从一个整体中挖掉一块;另一种是在一个图形矩阵中缺少一个图形,要被试选出一个能完成图形或符合一定结构排列规律的图案;
包括:瑞文标准推力测验,适合于5.5 岁以上智力发展正常的人,属于中等水平的瑞文推力测验;
瑞文彩图推力测验,适合于幼儿和智力低于平均水平的人,属于最低水平的测验;
瑞文高级推力测验,适合于智力高于平均水平的人,是最高水平的瑞文推力测验;
瑞文测验中国修订本,由60题构成,分为ABCDE ,5个系列,每个系列12题;
(3)认知能力测验,由桑代克等美国心理学家编制;
有四个不同部分组成:初级型,适合于小学低年级儿童;
文字测验,适合于小学4年级以上;
非文字测验,适合于小学4年级以上;
数字测验,适合于小学4年级以上;
所有测验的题目,均由易到难排列;
(三)能力测验
1)能力倾向测验
能力倾向测验的特点
(1)测验的目的:预测个体在将来的学习或工作中可能达到的成功程度
(2)测验的编制:以分测验形式组成,每个分测验针对一种能力,每个测验应该是独立的,测验的内容涉及广泛。
(3)测验结果的解释:一般采用多重回归模式解决;
具体能力倾向测验介绍:
(1)学术能力倾向测验(SAT )
包括两部分:言语和数学;皆为多重选择题;时限3小时;
(2)分辨能力倾向测验(DAT )
包括8个分测验;
(3)一般能力倾向成套测验(GATB )
包括12个分测验,测量9种能力倾向因素;其中,既有纸笔测验(团体) ,又有操作测验(个别);与DAT 相比,GATB 更注重于实际操作;原始分数转化为:μ=100;σ=20;
2)特殊能力测验
(1)音乐能力测验
错误!未找到引用源。西肖尔音乐才能测验:是一组最充分的调查音乐才能的测验;适合于小学至成人;
错误!未找到引用源。音乐能力测验图(戈登):250个原版的大提琴和小提琴选段; 由三个分测验构成:T 测验--音调形象;
R测验--节奏形象;
S测验--音乐感受;
(2)美术能力测验
错误!未找到引用源。梅尔美术判断力测验:测验由两幅美术作品组成,一幅是公认的杰作;另一幅是稍作歪曲的作品;
错误!未找到引用源。格雷福斯图案判断测验:取材不是名家杰作,而是一些二维或三位的抽象图形,他们在整体性,平衡性,和对称性方面有所区别,要求判断那幅图形最好;
错误!未找到引用源。霍恩美术能力问卷:(操作型测验)有两部分组成:一部分是要求被试画出20中常见的物体和几何图形;另一部分是要求被试在长方框内给定的圆点和线条基础上作画;
(3)机械能力测验
错误!未找到引用源。空间关系测验
(1)明尼苏达机械拼合测验;
(2)明尼苏达空间关系测验;
(3)明尼苏达书面形式拼版测验;纸笔测验,多重选择题;
错误!未找到引用源。机械理解能力测验:机械理解能力是指实际生活情境中的机械原理的能力,本奈特机械理解测验就是对此能力进行测验的最常用的工具之一;
3)创造力测验
(1)吉尔福特发散思维测验:发散思维在行为上的表现:流畅性;变通性;独特性; 由14个分测验,针对11种能力因素;适合于初中以上水平,从流畅性,变通性,独特性三方面进行评分;
(2)托伦斯创造性思维测验:目的是从流畅性;变通性;独特性;精确性四个方面评估个体创造性思维能力,是在吉尔福特发散思维测验基础上编制而成的;
测验共分两套,每套两个复本;一个是:言语的创造性思维测验,包括7项活动; 另一个是:图形的创造性思维测验,包括3项活动;
(四) 人格测验
1)人格测验的定义
人格测量就是通过一定的方法,对在人的行为中起稳定的调节作用的心理特质和行为倾向进行定量分析,以便进一步预测个人未来的行为。
2)自陈测验
求受测者根据自己的实际情况逐一回答这些问题,然后根据受测者的答案去衡量受测者在这种人格特质上表现的程度。 首先倡导用科学方法测量人格的是英国学者高尔顿;
1919年,美国武德沃斯发表了第一个自陈人格量表,个人资料调查表,这开了人格问卷测量之先河; 罗夏克墨迹测验的问世,投射测验由此诞生;
常用的自陈量表:
(1)明尼苏达多项人格调查表 MMPI(T 分数)
1966年修订版,确定566个项目,其中16个为重复项目;566个中前399个项目分配在13个分量表中,包括10个临床量表和三个效度量表;临床诊断只使用前399个项目;
中国的宋维真从1980年开始主持MMPI 的修订;可用于16岁以上具有初中文化程度的中国人;修订后仍有566个项目;
3个效度表为:说谎量表(L ):分数高表示回答不真实;
诈病量表(F ): 分数高表示诈病或确系严重偏执;
校正量表(K ):分数高表示一种自卫反应;
此外还可增加疑问量表(Q),既无法回答的项目数,无法回答的项目数超过一定的标准,则认为答卷不可靠;
(2)卡特尔16种人格因素量表 16PF(团体测验,分数采用标准10分制)
由A,B 两套等值的测验,每套187题,分配在16各因素中;
(3)艾森克人格问卷 EPQ(团体测验,T 分数)
理论基础是艾森克所提出的人格三维理论;
有四个分量表组成:精神质(P ),外倾性(E ),神经质(N ),说谎量表(L )
该问卷分为两种,儿童(7--15岁)和成人(16岁以上);
(4)学生性格量表(11~18岁) SPS(11--18岁),团体测验,T 分数;是云南师范大学编制;
4)投射测验(投射技术作为心里测量术语,是主题统觉测验的编织者,莫瑞提出的) 向受测者提供预先编制的一些未经组织的、意义模糊的标准化刺激情境,让受测者在不受任何限制的情况下,自由的对刺激情境做出他的反应,然后通过分析受测者的反应,推断受测者的人格特征。
投射是指个人对客体特征的想象式解释,在这种解释中,个人具有将自己身上发生的心理过程无意识地附着在客体身上的倾向。
(1)罗夏克墨迹测验(RIT )
(2)主题统觉测验(TAT )
4)情境测验
主试在某种情境下观察被试的行为反应,进而了解其人格特点。
(1)性格教育测验
(2)情境压力测验
(五)其他常用的心理测验
1)心理健康测验
2)态度测验
态度是指个体对人或事所持有的的一种较为持久而又一致的心理倾向,它包括认识、情感和行动倾向三种成分。
态度准确评价的功能:一是了解人们对各种不同事物的态度;
二是评价宣传工具在改变人们的态度中的效果;
三是评价教育工作的成效。
态度测量的方法:
(1)《等距量表》法---瑟斯顿,以中位数表示该受调查者的态度状态;
(2)《里克特量表》法--总加量表法
(3)《哥特曼量表》法---累计量表法
3)兴趣测验
兴趣测验通常要考虑两个基本问题:一是兴趣的客观表现,通常兴趣不是凭空存在的,它往往与一些活动分不开;二是兴趣的主观表现,兴趣是一种主观愿望。
常见的职业兴趣测验
(1)斯特朗职业兴趣问卷 SVIB(最早的兴趣问卷,根据经验编制的)
(2)库德职业兴趣调查表 KOIS
(3)自我指导问卷 SDS 霍兰德
(六)心理测验的应用
①了解个体差异
②诊断、预测和评价
③甄选、分类和安置
④为心理辅导和心理咨询服务
⑤心理和教育科研的辅助手段
心理测量学重难点考点归纳整理
一.心理测量的基本理论
(一)心理测量的基本理论
1)心理测量的基本概念
(1)心理测量的特点
①间接性——心理属性是内在的不可直接测量到的特质,但可表现为一系列具有内在联系的外显行为,测量者可以通过一定的方法测量这些外显行为,并由这些行为判别特质的性质。
②相对性——对人的行为进行比较,没有绝对的标准,亦即没有绝对零点,我们有的只是一个连续的行为序列。所有的心理测量都是看每个人处在这个序列的什么位置上,也就是只有顺序量表的特征。
③客观性——实际上就是测验的标准化问题。测验用的项目,说明、言语、态度、评分、分数转换、解释都需要标准化。
2)心理测量的特征与分类:
按所测量的心理特征分类:①能力测验②成就测验③人格测验
按接受测量的人数分类:①个别测验②团体测验
按测验目的分类①描述性测验②诊断性测验③预示性测验
按测验要求分类①最高作为测验②典型作为测验
按评价所参照的标准分类①常模参照测验②目标参照测验③潜力参照测验
3)经典测量理论及其模型
(1)基本定义
真分数:反映被试某种心理特质真正水平的数值;
其是一个在理论上构想出来的抽象概念,在实际测量中很难得到
观察分数:实测到的分数;
我们希望通过改进和完善测量工具及方法的方式来使得观察分数尽量接近真分数。 CTT 数学模型:观察分数与真分数之间是一种线形关系,并只相差一个随机误差 X =T +E 其中X 表示观察分数;T 表示真分数;E 表示随机误差(不包含系统误差)
(2)CTT 模型的三个假设公理
①若一个人的某种心理特质可以用平行的测验反复测量足够多次,则观察分数的平均值会接近真分数;即E(X)=T或E(E)=0 ;
②真分数和误差分数之间的相关为零,即ρ(T,E)=0 ;
③平行测验上的误差分数之间相关为零, 即ρ(E1,E2)=0;
平行测验:题目不同的测验测的是同一特质,且题目形式、数量、难度、区分度以及测查等值团体后所得分数的分布一致
(3)CTT 模型的方差关系
①在一次测量中,被试观察分数的方差等于其真分数方差与误差分数方差之和
222S X =S T +S E
②真分数变异还可以分成与测量目的有关的变异和与测量目的无关的变异
22S T =S V +S I 2
(二)测量的信度与效度
1)测量的信度
(1)信度的定义:信度是指测量结果的稳定性程度;
信度的三个等价操作定义:
①信度是一个被测团体的真分数的变异数与实得分数的变异数之比
②信度是一个被试团体的真分数与实得分数的相关系数的平方
③信度是一个测验与其任意一个平行测验的相关系数(这个定义具有实际意义)
(2)信度的三大作用 :①信度是测量过程中存在的随机误差大小的反应;随即误差越大,信度越低;
②信度提供了测量误差大小的估计值;见(P71的公式)
③信度可以帮助进行不同测验分数的比较,其公式:(见P72)
(3)信度系数的估计:
Ⅰ 重测信度:用同一个量表对同一组被试施测两次所得结果的一致性程度;
计算:其大小等一同一组被试两侧测验所得分数的皮尔逊积差相关系数; 实用的前提条件:
①所测量的心理特性必须是稳定的
②遗忘和联系的效果基本上互相抵消
③两侧测验的间隔被试的特质没有变化
Ⅱ 复本信度:两个平行的测验测量同一批被试所得结果的一致性程度;
计算:其大小亦等于两侧测验分数的皮尔逊积差相关系数。
前提:①有条件构造出两份或以上真正平行的测验
②被试有条件接受两个测验
Ⅲ 分半信度:将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度 也可以把对等的半测验堪称是在最短时距内施测的两个平行测验。
计算:先按照复本信度的方式计算出半个测验的信度,然后用斯皮尔曼-布朗公式校正r XX =2r hh 1+r hh )
2S X 若两个分半测验分数变异不等时则用r XX 2⎡(S a +S b 2)⎤=2⎢1-2⎥或S X ⎥⎢⎣⎦r XX =1-2S d
前提:①通常在只能施测一次或没有复本的情况下使用;
②由于将测验分半的方法很多,因此一个测验有多个分半信度值;
Ⅳ 同质性信度:也叫内部一致性系数; 测验内部所有题目间的一致程度
这里的一致性指有两层含义:一是所有题目都测的是同在一种心理特质,二是所有题目得分之间都具有较高的正相关;
测量单一特性是同质性高的必要条件,而非充分条件;反过来,同质性高才是测验册的单一特质的充分条件;
计算:K20公式:r XX ⎡K ⎤⎡(∑p i q i )⎤=⎢2⎥,K 为题目数,p i q i 为答对答⎥⎢1-K -1S )X ⎥⎣⎦⎢⎣⎦
错i 题的比例,Sx 为总分数的变异;(仅适用于0,1记分)
K21公式:( 见P78)
克龙巴赫α系数: r XX 2⎡K ⎤⎡(∑S i )⎤2=⎢S i 表示所有被试在i 2⎥,⎥⎢1-K -1S )X ⎥⎣⎦⎢⎣⎦
题上的分数变异;注意:α只是测验信度的下界的一个估计值,即α值大,必有较高的信度;但α值小,却不能断定信度不高;(不要求测验题目只是0,1记分,可以处理任何测验的内部一致性系数的计算问题)
Ⅴ 荷伊特信度:提出用方差分量比来描写测验内部一致性方法;公式见P80;
Ⅵ 评分者信度:多个评分者给同一批人的答卷进行评分的一致性程度
计算:评分者为2用积差相关或等级相关,大于2用肯德尔和谐系数进行估计;(见心理统计学相关内容)
(4)信度的影响因素与改进:(07年已考)
影响测量信度的因素:测量信度是测量过程中随机误差大小的反映,随机误差大,信度就低,随机误差小,信度就高;
(一)被式方面:单个被试而言:被试的身心健康状态,应试动机,耐心等会影响测量误差; 被试团体而言:被试团体异质时,全体被试的总分分布必然较广,以相关计算出来的信度就必然会大;
σ2E (见P115的解释r xx =1-2, 分数的分布越广,分母越大,从而r xx 越大) σx
(二)主试方面:主试不按照指导手册中的规定施测,故意制造紧张气氛,则会使信度大大降低;
(三)施测情境方面:考场是否安静,光线,通风情况都可能影响信度;
(四)测量工具方面:试题的取样,试题之间的同质性程度,试题的难度等是影响测验稳定性的主要因素;
(五)两次施测的时间间隔:时间间隔越短,其信度越大,时间间隔越长,信度可能越小; 提高信度的方法:
①适当增加测验的长度:r xx =k r xx /[1+(k -1) r xx ]
②使测验中试题的难度接近正态分布,并控制在中等水平
③提高测验试题的区分度
④选取恰当的被试团体,提高在同质性较强的亚团体上的信度
2)测量的效度
(1) 效度的定义 效度:是指一个测验或量表示既能测出其所要测的心理特质的程度; 使用效度时应注意:(1)效度是一个相对的概念,这种相对性表现在两个方面
①效度是相对于一定的测量目的而言的;
②心理测量不可能达到100%的准确,只能达到某种程度上的准确;
(2)效度是测量的随机误差与系统误差的综合反映;
(3)判断一个测量是否有效要从多方面收集证据;
22222效度=Sv/Sx=rxy; 其中,rxy 为效度系数;S v 代表有效变异数,S x 代表总变异数;
效度的操作定义:效度是总变异中由所测量的特性造成的变异所占的百分比;
(2) 效度的估计
Ⅰ 内容效度:一个测验实际测到的内容与所要测量的内容之间的吻合程度;
其中所测量的内容包括:欲测的知识范围以及该范围内各知识点所要掌握的程度两方面; 适用范围:内容效度主要应用于成就测验,也适合于某些用于选拔和分类的职业测验
而不是和能力和人格测验 (注意表面效度:最佳行为测验要求有较高的表面效度;其他测验希望表面效度低;) 确定方法:(主要是逻辑分析法,思路是,请专家对测验项目与原定内容范围的吻合程度做出判断) ①明确欲测内容的范围,包括知识范围和能力要求两个方面
②确定每个题目所测得内容,并与测验编制者所列的双向细目表对照
③制定评定表,考察题目对内容的覆盖率及其比例和内容的适当性并判断题目难度与能力要求间差异
统计计算(克隆巴赫提出):从同一内容中抽两套平行测验对一批被试测验, 两次相关高说明有效度(除非两个测验偏向同一方面); 也可以用再测法,通过后测成绩与前测成绩比较,如果后测成绩显著优于前侧成绩,说明所测内容正是被试新近学习的内容;
Ⅱ 结构效度:测验能说明心理学上的理论结构或特质的程度,或用心理学上某种结构或特质来解释测验分数的恰当程度
结构指用来解释人类行为的理论框架或心理特质,是心理学中抽象的假设性概念、特性或变量。
特点:
①结构效度的大小首先取决于实现假定的心理特质理论
②当实际测量的资料无法证实我们的理论假设时,不一定表明该测验结构效度不高 ③结构效度是通过对测量内容的选择的证据累计起来确定的,不是靠单一数量指标描述的
确定方法:
①提出理论假设,并把假设分解成一些细小的纲目
②依据理论框架,推演出有关测验成绩的假设
③用逻辑的和实证的方法来验证假设
应用范围:主要用于治理测验、人格测验等
估计方法:
①从测验内部寻找证据,先考察测验的内容效度;其次分析被试的答题过程;再次,计算同质性信度来检验结构效度,当然测验同质只是结构效度高的必要条件;
②在测验间寻找,将新编测验与已知有效的测验比较:相容效度法;区分效度法; 以及因素分析法;
③考察测验的实证效度:有两种做法,一种是根据效标把人非为两类,考察其得分的差异; 另一种是根据测验的得分把人分为高分组和低分组,考察这两组人在所测特质方面是否确有差异;
④多种特质-多种方法矩阵法;
Ⅲ 实证效度:一个测验对处于特定情景中的个体的行为进行估计的有效性,也就是说以实践效果作为检验有效性的表准
根据效标资料搜集的时间差异,实证效度可分为同时效度和预测效度两种。
效标是衡量一个测验是否有效的外在标准,它是独立于测验并从实践中直接获得的我们感兴趣的行为;
确定方法:①明确观念效标
②确定效标测量
③考察测验分数与效标测量的关系
估计方法:
①相关法——计算测验分数与效标测量的相关系数
②区分法——被试接受测验后,让他们工作一段时间,再根据工作成绩的好坏分成两组。这时再回过头来分析这两组被试原先分数的差异,将成绩与分数比较
③命中率——决策的命中率是测验有效性的较好指标;
(3)效度的影响因素与改进
影响因素:测验的构成,测验的实施过程、被试情况、所选效标的性质、测量的信度 (测验长度与效度的公式r (kx ) y =
原来的K 倍后,新测验与效标的相关;
K 为增长的倍数;
r xy 为原测验的效度;
) r xx 为原测验的信度;
提高方法:
①精心编制测验量表,避免出现较大的系统误差
②妥善组织测验,控制随机误差
③创设标准的应试情景,让每个被试都能发挥正常的水平
④选择正确的效标、定好恰当的效标测量,正确地使用有关公式;
3)信度与效度的关系
222根据公式S X ,可以得到信度与效度的关系如下:S v 是有效变异;S I =S V +S I 2+S E 22Kr xy ) 、其中r (kx ) y 是测验增长至K (1-r xx +Kr xx )
是系统误差的变异;S E 是随机误差的变异;前两者之和为真分数变异S T ;
①信度高是效度高的必要而非充分条件
②测验的效度受它的信度制约
(三)心理测量的误差
1)测量误差的定义
测量误差:在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应;
心理测量的误差包括随机误差和系统误差两种。
随机误差:由与测量目的无关的、偶然因素引起的、而又不易控制的误差
它使多次测量产生不一致的结果,其方向和大小的变化完全是随机的,只符合某种统计规律。
系统误差:由与测量目的无关的变量引起的一种恒定而又规律的效应
这种误差稳定的存在与每次测量之中,尽管多次测量结果一致,但仍与真实值有所差异。
2)随机误差的来源及控制
(1)来源
①测试环境——温度、光线、噪音等
②测试时间——时间安排不统一,或测试时间过短
③主试因素——年龄、性别、穿着、言谈举止、表情,主试的数量过多也会造成压力 ④意外干扰——停电、巨响、有人生病、作弊、测验用品出问题、粮食涨价、火星人入侵
⑤评分计分——主观题评分不客观,有个人偏好
(2)控制
22
测验准备尽可能充分细致,实测个方面尽量标准化;
3)系统误差的来源及控制
(1)来源
①测验难度——过高或过低
②测验内容——选题不当、题数太少、模棱两可、表述不清
③被试因素——应试动机变化、测验焦虑、测试经验、学习与发展、反应倾向、生理因素
(2)控制
题目编制认真用心,测验标准化
4)测量误差的估计
S E =S r tt 为信度系数;
(四)心理测验的项目分析
1)题目的难度
难度:测验项目的难易程度,一个测验项目,如果大部分被试都能答对,则该项目的难度就小,反之亦然测验的记分方法不同,项目难度的计算方法也不同。
(2)计算
Ⅰ 二分法记分项目的难度——以通过率来表示(注:这里通过率的概念和我们通常理解的难度相反)
P =N 其中P 代表项目难度;N 为全体被试数;R 为答对通过该项目的人数
当被试人数较多时,将被试依照测验总分从高到低排列,用总分最高的27%作为高分组,总分最低的27%作为低分组
P =P H +P L 其中P H 和P L 分别代表高分组合低分组的通过率 2
Ⅱ 非二分法记分项目的难度——P =x
x max 其中x 为被试在某一项目上的平均分;x max
为该项目的满分
(3)难度水平的确定
进行难度分析的主要目的是为了筛选项目,项目的难度水平多高合适,取决于测验的目的及性质:
①水平考试:目的在于了解被试某方面知识技能的掌握情况,不必过多考虑难度,认为重要的内容都可选用,甚至极高极低通过率的题
②选拔考试:目的在于选拔并录用人员,项目难度易控制在录取率左右,即较多地采用那些难度值接近录取率的项目
(4)难度的等距变换
普通难度指数是顺序变量,无法指出难度之间差异的大小,我们设法将其转变为等距量数:
①根据正态分布曲线将难度P 作为正态曲线下的面积,转换成Z 分数
②为避免小数和负值,再用公式进行变换∆=13+4⋅Z (注:可以看出新难度与我们通常理解的难度相同)
(5)难度对测验的影响
①难度过大和过小都造成测验分数偏离正态,而心理特质和我们经常使用的统计分布却都是正态的;难度过大,分数集中在底分端,呈正偏态分布;难度过小,分数普遍较高,集中在高分端,呈负偏态分布;
②过难或过易题目的存在都会使得测验分数相对集中,造成分数全距缩小
2)题目的区分度
(1)定义
区分度:测验项目对被试心理品质水平差异的区分能力
具有良好区分度的项目,能将不同水平的被试区分开来,反之则不能。
(2)计算
Ⅰ 鉴别指数法——适合于二分法记分的项目
D =P H -P L 其中P H 和P L 分别代表高分组合低分组的通过率(从分数分布的两端各区27%的被试)
D 0.4 很好
D 0.3-0.39 良好,修改会更好
D 0.2-0.29 尚可,仍需修改
D 0.19以下 差,必须淘汰
Ⅱ 相关法——以项目分数与效标分数或测验总分的相关作为项目区分度的指标 常用的有:点二列相关、二列相关、φ相关、积差相关;
3)题目的综合分析和筛选
①难度越接近0.5,项目潜在区分度越大,因此整个测验的难度平均应保持在0.5左右 ②测验中各项目之间有一定相关,为使成绩分布均匀,项目难度的应广一些,梯度大一些,最好成正态分布
③每项题目理想的区分度都应在0.3以上,至少是0.2
4)区分度与难度的关系
测量书P124
5)区分度的相对性
(1)不同计算方法所的区分度不同;
(2)样本容量大小影响相关法区分度值的大小;样本越小,统计值越不可靠,所以算出r 后,应进行统计检验;
(3)分组标准影响鉴别指数值:分组越极端,D 值越大;
(4)被试团体的同质性程度影响区分度值的大小:被试团体越同质,区分度越小;
(五)心理测验的编织技术
1)心理测验编制的基本程序
(1)确定测验目的;制定编题计划;编写测验项目;预测与分析;合成测验;测验标准化;鉴定测验;编写测验说明书;
其中:确定测验目的:要解决三个问题:明确测量对象(测哪些个体或团体);
确定测量目标(是测什么心理功能,是能力,人格还是其他); 明确测量用途(是描述性的,还是诊断性的);
(2)制定编题计划(即测验目标与命题双向细目表):制定编题计划时要明确的信息有两个:第一,全面而具有代表性的测验内容,不致使测题偏离了应测量的范围;第二,对各个
内容点的相对重视程度,通常用百分比来表示;
编题计划作用:明确指明了应该编写哪些方面的测验项目以及编多少个项目;在计分时,可按计划中百分比确定每类测验项目的分数标准;
(3)编辑测验项目(题目编制技术)
收集测验资料(丰富,具有普遍性,有趣味性);
测验项目形式(考概念,原理用简答题,考察综合运用知识,论文题等);
编写测验项目:编写的测验项目应对所预测的心理品质具有代表性;
取材范围与编题计划中所列范围相一致;
测验项目应具有一定的难度分布范围;
测验项目的初编数量应大于最终所需数量,以便于筛选与编制复本; 测验项目的说明要简洁;
编写测验项目的用于应浅显明了;
(4)预测与分析
预测:目的在于或的被试对测验做何反映的资料
注意的问题:测验的被试样本应取自正式施测的总体;
预测时的情景应与正式测验的情境一致;
测试的时间可以适当延长,以便使被试能将所有试题答完;
对被试的反应应加以记录;
(5)合成测验
测验项目的选择:测验的性质:选择那些能够测量所要测量的东西的项目;
测验项目的难度,选拔性的要求难度大些,考察性的难度不可太高,人格测验不要求有难度;
测验的区分度,越高越好;
测验项目的编排:在测验的开头应有一,两个比较简单的题目,使被试熟悉作答程序,解除紧张情绪,建立信心,尽快进入答题的情境,测验项目的总体编排原则是,先易后难,避免被试在难题上耽误时间,以影响后面的答题过程,在测验最后可以有少量难度较大的题目,以测出被试的最高水平。项目的编排方式有:并列直进式;混合螺旋式;
(6)测验的标准化(已考)
测验内容;
施测过程:相同的测验情景,相同的指导语,相同的测验时限;
测验评分;
测验分数的解释;
(7)鉴定测验
信度和效度两方面;
(8)编写测验说明书;
(六)心理测验的施测
1)测验的设计
测验设计:对测验的结构和内容、可达到的目的、结果可提供的信息、使用范围、心理学指标等进行总体设计
2)施测的程序与步骤
①施测前的准备工作:准备好测验材料;熟练掌握施测手续;熟记测验指导语并能用口语清
除流利地说出来;
②指导语:主要作用是使受试者按正确的形式对题目做出反应;指导语应保持中立,不倾向于答案的任何一种方向;
③测验情景:测验场地的通风,光线,噪音,座位等都会影响测验分数;
④测验焦虑:一般能力与焦虑成反比;抱负水平与焦虑成正比;竞争性测验焦虑较高;轻微的焦虑会增进测验效果;
⑤与受测者建立良好的协调关系;
⑥评分技术
测验分数的解释:
就解释类型而言:叙述的解释;溯因的解释;预测的解释;评价的解释;
解释分数时应遵循以下原则:①主试应充分了解测验的性质与功能;
②对导致测验结果的原因的解释要慎重,谨防片面极端; ③必须充分估计测验的常模和效度的局限性;
④解释分数应参考其他资料
⑤对测验分数应以一段分数来解释
⑥对来自不同测验的分数不能直接进行比较
如何向受测者报告测验分数:①使用当事人可以理解的语言;
②要保证当事人知道这个测验施测什么的;
③如果分数是常模为参考的,就要使当事人知道它是和什么团体比较的;
④要使当事人认识到分数只是一个估计;
⑤要使当事人知道如何运用它的分数;
⑥考虑分数解释将给受测者带来什么影响;
⑦测验分数向无关人员保密;
⑧对低分者的解释要小心谨慎;
⑨报告分数时应设法了解当事人的心理感受;
(七) 测验常模
1) 常模与常模团体
(1)定义:常模:根据标准化样本的测验分数经过统计处理而建立起来的具有参照点和单位的测验量表;
常模团体:是具有某种共同特征的人组成的一个群体;
(2)确定常模团体的注意事项
①群体构成的界限必须明确;
②常模团体必须是所测群体的一个代表性样本;
③常模团体的取样过程必须明确且有详尽的描述比较时;
④样本大小要适当:样本误差与样本大小成反比,在其他条件相同下,样本越大越好;但还要考虑人力,物力,财力。
⑤常模团体必须是近时的;
⑥注意一般常模与特殊常模相结合;
2)分数转换与合成
(1)分数转换 (这部分内容请参考《心统》学习)
原始分数:被试在接受测验后,根据测验的积分标准,对照被试的反映所计算出的测验分数;
其反映了被试作答的正确程度,但不能直接反映出被试之间的差异状况和被试在总体分布中的位置。
导出分数:在原始分数转换的基础上,按照一定的规则,经过统计处理后获得的具有一定参考点和单位且可以相互比较的分数;
分数转换:按某种规则将原始分数转化为导出分数的过程
Ⅰ 百分等级——在一个群体的测验分数中,得分低于这个分数的人数的百分比 计算:未分组分数资料:P R =100-100R -50其中P R 为百分等级,R 为排名顺序的N
序号,N 为被试总人数
分组分数资料:团体人数过大分数以次数分布表的形式呈现时:P R =⎤100⎡(X -L )⋅f +F ⎢b ⎥ N ⎣i ⎦
其中X 为被试原始分数,L 为被试所在组分数下限,f 为被试所在组次数,i 为组距,F b 为被试所组以下各组次数和。
评价:百分等级是一种相对位置量数,具有可比性,且具有易于计算,解释方便等优点;另外百分等级不受原始分数分布状态的影响,即使是非正态,也不会影响百分等级的解释能力; 但也有缺点:首先单位不等;其次,百分等级之具有顺序性;再次,百分等级是相对于特定的被试团体而言的,解释时不能离开特定的参照团体。
Ⅱ 标准分数——一种具有相等单位的量数,又称Z 分数,即Z =X -X S
由于Z 分数常出现小数和负值,我们可进一步将其转变为T 分数:T =10Z +50 Ⅲ 标准九分数
(2)分数合成
分数合成:将几个分数或几个预测源组合起来,以获得一个合成分数或作总的预测; 具体包括三种情况,即:项目的组合、分测验的组合、测验的组合
Ⅰ 临床诊断(直觉合成)
这种根据直觉的经验,主观地将各种因素加权,而获得结论或预测的方法叫临床诊断 优点:①具有高度和综合性②具有灵活的针对性 缺点:①易受决策者的偏见影响②缺乏精确的数量分析
Ⅱ 加权求和——将各测验分数相加或乘以加权系数后相加
前提:各测验所测特质间有互相代偿作用,这些测验的分数又是连续性资料,并能大体同时获得
Ⅲ 多重回归——研究一种事物或现象与其他多种事物或现象在数量上相互联系和互相制约的统计方法
很多情况下,需要利用测验结果对预测效标做出估计,即求出效标估计与预测变量之间的数量关系式:
=a +b x +b x + +b x Y 1122n n
范围:适合于所测特质具有某种程度的互偿性
Ⅳ 多重划分——在各个特质上都确定一个标准,从而把成绩划分为合格与不合格两类;所有测验按顺序实施,通过一个才能进行下一个,完全合格要全面达标
3)常模编制
①确定有关的比较团体
②获得该团体成员的测验分数
③把原始分数转化为量表分数
4)几种常用的常模
Ⅰ 心理年龄
首先寻找并设计出可区分各年龄儿童智力的题目,每个题目放在大部分的儿童都能成功地完成的那个年龄水平。把每个年龄水平的题目综合得到一个可评价儿童智力发展水平的年龄量表。一个儿童在量表上所得的分数,就是最能代表他的智力水平的年龄,称智龄。
Ⅱ 年级当量
将被试的测验成绩与某一年级的学生的平均分数做比较,而说明相当于某一年级水平。
Ⅲ 教育商数
EQ =
就 教育年龄EA ⨯100=⨯100 其中教育年龄是指某岁儿童所取得的平均教育成实际年龄CA
Ⅳ 成就商数
将一个学生的教育成就与其智力作比较,反映学生的努力度和教师的教学效果: AQ =教龄教龄/实龄教育商数(EQ )⨯100==⨯100 智龄智龄/实龄智力商数(IQ)
成就商数不仅可以用来评价学生的努力程度,还可以评价教师的教学效果与质量;前者是因为智力与学业成就二者不等价,智力不够理想,若刻苦努力,仍可获得好的学业成就,此时他的成就商数就高;反之,成就商数低,说明该生不够努力,所获得的成就与他的智力不相称;对后者,如果学生的平均教龄低于智龄,说明教学存在问题;
(八)标准参照测验
1)标准参照测验的定义与作用
标准参照测验:根据某一明确界定的内容范围(是首要的)而缜密编制的测验,并且被试在测验上所得结果也是根据某一明确界定的行为标准直接进行解释的;
作用:了解个体在所规定的测量内容上的行为水平,因此其出发点是个体本身的绝对水平而不再是个体间的水平差异;
2)标准参照测验的题目分析
(1)内容范围的确定
①内容范围具有明确的边界
②范围的内容可进行细致分类,有明确的结构
③特定测验目的的确定常为内容范围的界定提供依据
(2)内容效度分析
对构成测验的每一个题目是否合适以及有效进行分析,即检验题目与测验内容范围所要求的内容与目标的一致性,这一过程缺乏客观的统计分析手段,通常采用专家评定的方法。
(3)测验的预测
①前测-后测方法——在一组被试接受教学过程前后各施测一次
②已接受教学组-未接受教学组方法
③对照组方法——由教师评定是否掌握知识的两组
(4)难度分析
用通过率来表示。
(5)区分度分析
①鉴别指数:掌握组在某项目上的通过率减去未掌握组在该项的通过率,即D =P A -P B ②个人获得指数:前测-后测法中,可获得在前测中错误回答项目而在后测中能够正确回答的被试的人数的比例;
③相关系数:项目的分和测验总分之间的一致性程度
3)标准参照测验的信度与效度
(1)信度
①分类一致性信度
考察被试在同一测验的两次施测中是否被分在同一类中
P 0=(a +d )+b +c +d
②荷伊特信度
(2)效度 ①内容效度——照搬常模分析中的内容效度分析方法;(评估一测验的内容效度 ,都依赖于两个条件:一是测验有明确界定的测验内容;二是测验每一题目的内容效度的分析)
②效标关联效度——运用刚才在信度中使用的四格表的分析法,只不过这里的测验AB 分别指预测源测验和效标测验;
4)标准参照测验的分数解释
(1)专家判定法(Nedlsky 方法和Angoff 方法)
在测验的内容范围明确界定的基础之上,由专家来判断处于临界水平的被试在每一题目上正确回答的可能性,进一步一次为标准确定分数分界点。
临界水平被试:那些刚由未掌握水平转入掌握水平的被试,这些被试实际上是在专家的想象中虚拟出来的
(2)效标组预测法
①临界组法:由专家判定和选择一组正处于临界水平的被试,将测验施测于该组被试,计算他们在测验上的平均成绩,以体现测验的内容范围所要求的临界水平,因而可以视之为测验分数分界点的估计值
②对照组法:采取专家判定的方法来事先确定两组被试,一组被明确判定为掌握组,
另一组则被明确判定为非掌握组,那些不太容易被判定的被试一概提出。对这样两组被试施测测验,可以得到原始分布图,途中两条曲线的交叉点即为测验分数的分界点
(九) 心理测量理论的新发展(非重点)
1) 经典测量理论的局限
①对信度的估计精度不高,平行测验难以实现
②误差指标笼统单一,仅把测验分数划分成真分数和随机测量误差两部分
③各种参数的估计对样本抽样的依赖性太大,如题目的难度是相对考生而言的
④参数指标之间的配套性较差
⑤真分数与观测分数之间存在线性关系的假定不合理
2) 项目反应理论: 见华中(北京) 师大参考书
潜在特质:没有明确的物理与生理属性的,制约人的行为的心理特征
项目反应理论:以受测者回答问题的情况,通过某种数学函数曲线,推算出受测者某个心理特质变量大小
所依据的函数叫做项目特征函数。
项目反应理论的优点:
①题目参数的跨群体不变性(题目的特征函数是固定的
②潜在特质量表的可选择性
③参数设计的科学性
④信息函数概念的引进与信息函数的可加性
3) 概化理论
概化理论的基本思想:任何测量都是依赖于特定的测验情景关系的,测验情景关系中的测量目标、测量侧面、测量侧面的水平都是会变化的,它们的变化会引起测验误差的来源、测验误差的大小、真分数的种类以及测验信度的变化,同时测验分数的解释范围也发生变化。概化理论的统计分析分为两个阶段,即G 研究和D 研究。
(1)G 研究
观察领域:研究者设计的测验情景关系及用一定方法采集的测验数据
G 研究在观察领域数据上进行,其目的是要定量估计观察领域中测量目标的方差以及各测量侧面所产生的测量误差方差。从统计角度说就是要分解观察数据总体方差,估计各因素期望方差,采用的方法是方差分量分析法,把总体方差分解为测量目标主效应方差、测量侧面主效应方差、各种交互效应方差。
(2)D 研究
D 研究称作决策研究,其目的是利用G 研究的结果数据,在原设计的测验情况关系范围之内,分析比较各种可能的测验方案,测验工作者可以根据分析结果,结合可能的实施条件优选实际测验方差。D 研究最终提供各种测验方案下的测验误差估计值。
4) 测验等值
测验等值:通过对考核同一心理品质的多个测验形式做出测量分数系统转换,使得这些不同测验形式的测验分数之间有可比性
测验等值可使不同形式的测验分数均对应起来,测验主持者可以任意指定其中的一个分数形式作为基准,而使其他形式的分数都转化到这个基准形式上。
(1)测验等值的条件
①同质性——被等值的不同测验形式所测的必须是同一种心理品质且内容与范围基本相同
②等信度——被等值的不同测验形式必须有相等的测验信度
③公平性——考生参加被等值的不同测验形式中的任一个测试,等之后的结果都是一样的
④可递推性——不同递推途径所得到结果相同测验x 与测验y 的等值转换关系为:f (x ) =y , 测验y 与测验z 的等值转换关系, g (y ) =z , 那么一定有测验x 与测验z 之间的关系h 存在, h (x ) =g (f (x )) =z
⑤对称性——测验间的等值转换关系是双向的即, 如果f (x ) =y , 那么从y 出发, g (y ) =x , 则一定有f =g -1
⑥样本不变性——两测验的转换关系是内在的,不随所使用样本的变化而变化
(2)计算方法
①等百分位等值:如果两个分数对于任何一个被试群体都有相同的百分等级,那么这两个分数就被认为是等值的
②线性等值:如果两个分数在各自的群体内标准分数相等,这两个分数被认为是等值的
A =Sy /Sx x -y - 改写成: y=Ax+B 其中 =B =-A Sx Sy
四. 心理测验及其应用
(一) 成就测验
1) 成就测验的定义
成就测验:对个体在一阶段的学习或训练之后知识、技能的发展水平的测定;
与其他心里测验不同的是,成就测验希望看到练习和发展的效应;与能力测验一样,成就测验属于最佳行为测验。
2)成就测验的编制
①确定测验目的,选定测验编制的方法
②分析测量目标,拟定测验编制计划
③编题征题与选题组卷
④调查测验质量参数,编制测验常模
⑤编写测验指导书,正式出版发行
3)成就测验的标准化
①命题组卷标准化
②标准化施测
③评分标准化
④测验分数解释标准化
(二)智力测验
1)智力测验的定义
智力测验:以一定的智力理论为基础,通过测验得到智力的量化数据;
比率智商:用智龄和实际年龄的比率来代表智商。
2)个体智力测验
(1)比内量表
错误!未找到引用源。 比内-西蒙量表
1905年量表:出于诊断异常儿童智力,是世界上第一个智力量表,包括30题;(07年考过)
1908年量表,这是第一个年龄量表,测验增加至59题,以智力年龄来评估个体智力; 1911年量表,增设了一个成人题目组;
错误!未找到引用源。 斯坦福—比内量表(推孟terman )
1916年量表(适合3--13岁), 在比西量表的基础上又增加了39个新项目;首次引入比率智商,以IQ 作为个体智力水平的指标;
1937年量表(1.5--18岁),由L,M 型两个等值量表构成,偏重于社会经济地位较高家庭的儿童,未能全面反映美国当时人口状况;
1960年量表(2岁--成人),汇集了L,M 的最佳项目而成LM 型单一量表,舍弃比率智商,引入离差智商,μ=100;σ=16;
1972年量表,取样代表性有了很大的提高;
错误!未找到引用源。 中国比内测验
测验共51题,每题代表4个月,从2--18岁,每个年龄3道题,使用离差智商;
(2)韦克斯勒量表
错误!未找到引用源。 韦氏成人智力量表
1939年,W-B Ⅰ(10--60岁),是第一个成人智力量表;
1949年,W-B Ⅱ(10--60岁);
1955年,韦氏成人智力量表,WAIS ;
1981年,修订版WAIS-R (16--74岁);每个分测验独立记分,在转化为μ=10;σ=3的标准分数;最后在转换成μ=100;σ=15的离差智商分数;
W-B,WAIS,WAIS-R 都由11个分测验组成;6个言语分量表,5个操作分量表;
错误!未找到引用源。 韦氏儿童智力量表
WISC 量表;是韦氏成人智力量表向较低年龄水平的扩展;
1949年在W-B Ⅰ基础上修订而成;保留了原来的测验形式,降低了难度,增加了一个迷津分测验,测量知觉的速度和准确性;采用离差智商代替了比率智商;
1974年,发表WISC-R(6--16岁) , 共12个分测验, 构成言语和操作量表, 其中背数和迷津测验是备用测验;
错误!未找到引用源。 韦氏幼儿智力量表
WPPSI 量表,适合于4--6.5岁的儿童;
包括11个分测验,其中3个分测验是为适应幼儿特点而编制的,另外8个与WISC 相同; WPPSI 也给出了言语智商,操作智商,总智商;
3)团体智力量表
(1)陆军测验(第一个团体智力测验)
陆军甲种测验:由8个分测验组成;
陆军乙种测验:属于非文字测验,由7各分测验组成;
(2)瑞文推理测验:源于Spearman 的智力二因素理论;是非文字性的图形测验;均由两种题目形式组成,一种是从一个整体中挖掉一块;另一种是在一个图形矩阵中缺少一个图形,要被试选出一个能完成图形或符合一定结构排列规律的图案;
包括:瑞文标准推力测验,适合于5.5 岁以上智力发展正常的人,属于中等水平的瑞文推力测验;
瑞文彩图推力测验,适合于幼儿和智力低于平均水平的人,属于最低水平的测验;
瑞文高级推力测验,适合于智力高于平均水平的人,是最高水平的瑞文推力测验;
瑞文测验中国修订本,由60题构成,分为ABCDE ,5个系列,每个系列12题;
(3)认知能力测验,由桑代克等美国心理学家编制;
有四个不同部分组成:初级型,适合于小学低年级儿童;
文字测验,适合于小学4年级以上;
非文字测验,适合于小学4年级以上;
数字测验,适合于小学4年级以上;
所有测验的题目,均由易到难排列;
(三)能力测验
1)能力倾向测验
能力倾向测验的特点
(1)测验的目的:预测个体在将来的学习或工作中可能达到的成功程度
(2)测验的编制:以分测验形式组成,每个分测验针对一种能力,每个测验应该是独立的,测验的内容涉及广泛。
(3)测验结果的解释:一般采用多重回归模式解决;
具体能力倾向测验介绍:
(1)学术能力倾向测验(SAT )
包括两部分:言语和数学;皆为多重选择题;时限3小时;
(2)分辨能力倾向测验(DAT )
包括8个分测验;
(3)一般能力倾向成套测验(GATB )
包括12个分测验,测量9种能力倾向因素;其中,既有纸笔测验(团体) ,又有操作测验(个别);与DAT 相比,GATB 更注重于实际操作;原始分数转化为:μ=100;σ=20;
2)特殊能力测验
(1)音乐能力测验
错误!未找到引用源。西肖尔音乐才能测验:是一组最充分的调查音乐才能的测验;适合于小学至成人;
错误!未找到引用源。音乐能力测验图(戈登):250个原版的大提琴和小提琴选段; 由三个分测验构成:T 测验--音调形象;
R测验--节奏形象;
S测验--音乐感受;
(2)美术能力测验
错误!未找到引用源。梅尔美术判断力测验:测验由两幅美术作品组成,一幅是公认的杰作;另一幅是稍作歪曲的作品;
错误!未找到引用源。格雷福斯图案判断测验:取材不是名家杰作,而是一些二维或三位的抽象图形,他们在整体性,平衡性,和对称性方面有所区别,要求判断那幅图形最好;
错误!未找到引用源。霍恩美术能力问卷:(操作型测验)有两部分组成:一部分是要求被试画出20中常见的物体和几何图形;另一部分是要求被试在长方框内给定的圆点和线条基础上作画;
(3)机械能力测验
错误!未找到引用源。空间关系测验
(1)明尼苏达机械拼合测验;
(2)明尼苏达空间关系测验;
(3)明尼苏达书面形式拼版测验;纸笔测验,多重选择题;
错误!未找到引用源。机械理解能力测验:机械理解能力是指实际生活情境中的机械原理的能力,本奈特机械理解测验就是对此能力进行测验的最常用的工具之一;
3)创造力测验
(1)吉尔福特发散思维测验:发散思维在行为上的表现:流畅性;变通性;独特性; 由14个分测验,针对11种能力因素;适合于初中以上水平,从流畅性,变通性,独特性三方面进行评分;
(2)托伦斯创造性思维测验:目的是从流畅性;变通性;独特性;精确性四个方面评估个体创造性思维能力,是在吉尔福特发散思维测验基础上编制而成的;
测验共分两套,每套两个复本;一个是:言语的创造性思维测验,包括7项活动; 另一个是:图形的创造性思维测验,包括3项活动;
(四) 人格测验
1)人格测验的定义
人格测量就是通过一定的方法,对在人的行为中起稳定的调节作用的心理特质和行为倾向进行定量分析,以便进一步预测个人未来的行为。
2)自陈测验
求受测者根据自己的实际情况逐一回答这些问题,然后根据受测者的答案去衡量受测者在这种人格特质上表现的程度。 首先倡导用科学方法测量人格的是英国学者高尔顿;
1919年,美国武德沃斯发表了第一个自陈人格量表,个人资料调查表,这开了人格问卷测量之先河; 罗夏克墨迹测验的问世,投射测验由此诞生;
常用的自陈量表:
(1)明尼苏达多项人格调查表 MMPI(T 分数)
1966年修订版,确定566个项目,其中16个为重复项目;566个中前399个项目分配在13个分量表中,包括10个临床量表和三个效度量表;临床诊断只使用前399个项目;
中国的宋维真从1980年开始主持MMPI 的修订;可用于16岁以上具有初中文化程度的中国人;修订后仍有566个项目;
3个效度表为:说谎量表(L ):分数高表示回答不真实;
诈病量表(F ): 分数高表示诈病或确系严重偏执;
校正量表(K ):分数高表示一种自卫反应;
此外还可增加疑问量表(Q),既无法回答的项目数,无法回答的项目数超过一定的标准,则认为答卷不可靠;
(2)卡特尔16种人格因素量表 16PF(团体测验,分数采用标准10分制)
由A,B 两套等值的测验,每套187题,分配在16各因素中;
(3)艾森克人格问卷 EPQ(团体测验,T 分数)
理论基础是艾森克所提出的人格三维理论;
有四个分量表组成:精神质(P ),外倾性(E ),神经质(N ),说谎量表(L )
该问卷分为两种,儿童(7--15岁)和成人(16岁以上);
(4)学生性格量表(11~18岁) SPS(11--18岁),团体测验,T 分数;是云南师范大学编制;
4)投射测验(投射技术作为心里测量术语,是主题统觉测验的编织者,莫瑞提出的) 向受测者提供预先编制的一些未经组织的、意义模糊的标准化刺激情境,让受测者在不受任何限制的情况下,自由的对刺激情境做出他的反应,然后通过分析受测者的反应,推断受测者的人格特征。
投射是指个人对客体特征的想象式解释,在这种解释中,个人具有将自己身上发生的心理过程无意识地附着在客体身上的倾向。
(1)罗夏克墨迹测验(RIT )
(2)主题统觉测验(TAT )
4)情境测验
主试在某种情境下观察被试的行为反应,进而了解其人格特点。
(1)性格教育测验
(2)情境压力测验
(五)其他常用的心理测验
1)心理健康测验
2)态度测验
态度是指个体对人或事所持有的的一种较为持久而又一致的心理倾向,它包括认识、情感和行动倾向三种成分。
态度准确评价的功能:一是了解人们对各种不同事物的态度;
二是评价宣传工具在改变人们的态度中的效果;
三是评价教育工作的成效。
态度测量的方法:
(1)《等距量表》法---瑟斯顿,以中位数表示该受调查者的态度状态;
(2)《里克特量表》法--总加量表法
(3)《哥特曼量表》法---累计量表法
3)兴趣测验
兴趣测验通常要考虑两个基本问题:一是兴趣的客观表现,通常兴趣不是凭空存在的,它往往与一些活动分不开;二是兴趣的主观表现,兴趣是一种主观愿望。
常见的职业兴趣测验
(1)斯特朗职业兴趣问卷 SVIB(最早的兴趣问卷,根据经验编制的)
(2)库德职业兴趣调查表 KOIS
(3)自我指导问卷 SDS 霍兰德
(六)心理测验的应用
①了解个体差异
②诊断、预测和评价
③甄选、分类和安置
④为心理辅导和心理咨询服务
⑤心理和教育科研的辅助手段