现代社会中无处不在的测量与量化是人们认识世界的一种科学方式。以心理学为导向视角,心理学和统计思维被联系起来,以帮助建立心理学理论与解释人类行为。不同于温度、压力等物理属性测量,心理测量包括对智力、知识、能力、态度、人格特质的测量和教育测量,是一种高度内隐化与抽象化并依赖于模型的研究领域。基于对心理测量具有不完善性的共识,心理测量学家对科学的独特贡献是将误差的概念引入统计模型,并且发展出对测量结果进行评估与解释的标准与体系。目前,心理与教育测量已经渗透到社会生活的各个阶段,随着跨学科合作的日趋深化,社会发展需求的不断提升,新技术、新仪器以及跨领域研究的大量涌现,心理测量理论的发展和实践应用都面临着新的契机与挑战。
心理测量的理论发展
心理测量学起源于19世纪末20世纪初,经典测验理论(Classical Test Theory, CTT)是最早实现数学形式化的心理测量理论。该理论将个体在测量工具上的表现称为观察分数,观察分数既包含测量工具所测特性的真实值,也包含测量中存在的误差。虽然真实值无法直接获得,但可以通过观察分数来间接推出,当重复进行无限多次测量时,观察分数的期望值就会无限接近于我们关注的真实值。CTT的理论体系较为完整,模型直观形象、易于理解,已被广泛接受和应用。但该理论仍存在一些局限性,例如,对测量误差及其来源的认识较为笼统,忽视了测量情境对误差的影响;对测量的检验依赖于平行测验,但平行测验的条件在实践应用中较难满足;题目参数的无偏估计依赖于有代表性的样本,易受抽样方法的影响;每次测验对特定总体只有一个测量标准误,即测量误差对于每个被试都相同,这并不符合大多数人的共识。
概化理论(Generalizability Theory,GT)提出“测量情境关系”这一核心概念,认为测量目标和测量情境共同构成了测量情境关系,使测量拓展到根据测量结果所作出的推论或决策质量的评估。GT对测量分数的总方差进行分解、估计误差来源、尽可能减小误差方差,基于概化系数可靠性指数来评估测验的精度,同一个测量目标随着测验的性质和测验情境关系的不同,可以有多个信度。
从经典测试理论到现代测验理论的转变发生在20世纪六七十年代,美国心理测量学家洛德(Lord)在1952年首次提出双参数正态肩形曲线模型,标志着项目反应理论(Item Response Theory,IRT)的产生。IRT认为被试的潜在特质水平能够解释其在测验中的表现,并用项目特征函数来揭示项目作答行为与潜在特质水平的量化关系。IRT对于不同能力的被试有不同的测量标准误,这意味着同一道题目对于不同能力测量的可靠性和贡献存在差异,使其在理论上更具有说服力。然而,由于IRT的基本假设(单维性、局部独立性和单调性)在大部分测验场景中很难满足,多维项目反应理论以及大量拓展模型应运而生。过去20年,IRT的模型开发、参数估计算法、IRT在评估中的应用等研究仍然是心理测量学领域期刊内容的重要组成部分。
20世纪80年代,认知心理学对被试问题解决加工过程的深入认识,为心理与教育测验的编制与分析提供了新的思路,成为教育评价领域新的里程碑。无论是CTT还是IRT,被试的能力均按顺序排列在特定能力或特质的连续体上,而认知诊断模型(Cognitive Diagnostic Model,CDM)能够提供丰富学习历程和准确学习成果的诊断信息。考生在测验上的表现被看作一系列动态心理过程的加工结果,将动态的心理过程抽象为“认知属性”,便可以将测验题目与认知属性对应起来——Q矩阵,进而通过建构更加精致的模型来推断考生在测验所考查认知属性上的知识状态,从教学角度帮助学生尽快查漏补缺,为实现因材施教奠定基础。
心理测量的实践应用
心理测量的发展不仅是理论与模型的研究进展,还体现在心理测量的大规模实践运用中。从1904年第一个智力测验量表问世以来,经典测量理论在早期就被迅速推广并应用于人格、智力、态度、兴趣、动机、行为模式与认知发展等各种心理品质或素质的测量中,对心理学贡献非常大,是构建心理学理论或实验研究的工具。经典测量理论的发展为解决实际问题提供理论指导,用于检验测量的信度和效度的内涵不断被更新,从最初的效标效度发展到包括从测验编制到测验实施,从分数解释到决策评估,形成了一个保证实践中测量结果在多大程度上被正确使用的论证体系,并长期指导心理测量实践。20世纪80年代以后,IRT模型以其多种形式对教育评价和人力资源产生的重大影响,从以前微不足道的使用发展到如今在许多国家的普遍应用,成为大规模评估项目中使用最广泛的模型。在过去的一个世纪里,不断发展的心理测量理论与模型被广泛应用于教育、人力资源、临床医疗、市场调查、风险决策、工业、体育、政治与军事等现代社会的各行各业,使心理测量成为一个具有巨大商业影响的繁荣领域。
教育评价仍是心理测量应用最重要的领域。心理测量作为教育评价的工具,能够通过测量帮助教师发现学生的心理问题或学业短板,有针对性地对其进行心理干预或教育。美国教育研究协会、美国心理学会和美国国家教育测量协会共同颁布的《教育与心理测量标准》提出了测验编制、实施所应遵循的基本原则,规定了考试所应达到的技术要求。许多大型考试机构、教育集团、国家教育机构、人事机构投入测验的开发与实施中,例如,美国教育考试服务中心开发了美国大学入学考试、研究生入学考试、学术能力评估测试、国际交流英语考试、面向母语非英语者的英语能力考试和经企管理研究生入学考试等。目前,心理测量被广泛应用于测验的设计、编制与实施、题库建设、分数报告、公平性检验等一系列教育评价的环节,各种程序与应用已经非常成熟。围绕学生的评估包括成就测验、学习能力预测、人才选拔测验、档案式评价以及学生和成人群体的大规模调查评估,例如人格调查、价值观调查;围绕教师和教学质量的评估包括课堂评估、增值性评价、教学行为观察方法调查等;围绕国际教育的评估包括国际阅读素养评估研究、国际数学和科学趋势研究、经济合作与发展组织实施的国际学生评估项目等。此外,人力资源的开发呼唤高质量的测验。围绕人才选拔与职业选择的评估实践,美国劳工部制定了《测试与评估:雇主实用指南》,帮助各级管理者及人力资源部门在法律的框架下合理使用测试。各类准入类职业资格考试开始应用于职业选拔,例如医师资格考试、教师资格考试、飞行员选拔测验、建筑师注册考试等,对从业者的职业素养进行考查。此外,心理测量对政策分析的支持和贡献也在增加,不仅用于教育理论研究和评估实际问题的解决方案,也帮助政府官员和公众进行重要的政策分析,涉及教师政策、教育改革、法律、性别与教育机会公平等社会问题。
随着评价从注重结果的单一化评价向注重过程的多元化与形成性评价的转向,认知诊断的思想与模型受到了越来越多来自不同领域的关注,心理测量领域和计算机领域的共同努力推动了基于认知诊断的自适应学习与自适应测评的发展与应用。多模态数据的采集与智能处理技术为突破原来实践中难以解决的问题带来更多可能,计算机自动评分技术、交互式、游戏化等新型测评形式不断涌现,被应用于各类考试与行业中。面对当下快速更迭的环境与技术,心理与教育测量的专业人员应保持开放与乐观的态度,融合计算机、认知科学等其他领域的先进技术,推动心理测量长久以来积累的经验与方法更好地服务于实践。
智能时代心理测量面临机遇与挑战
不断发展完善的测量理论是解决实践过程中问题的基础,社会持续发展产生的新需求同时也影响着测量方法和技术的革新。当前,心理测量学几乎涵盖了所有对人类行为和社会科学有用的统计方法,呈现出与其他学科快速融合趋势。在这个过程中,心理测量的理论和实践都面临着前所未有的机遇和挑战。
智能信息时代涌现出大量的实践需求与发展契机。一方面,提高测量的生态效度、高效方便地进行大规模施测的需求依然存在;另一方面,电子设备渐渐融入我们的生活,影响着我们在虚拟和现实环境中的行为和特质。已有研究为我们呈现了心理测量与信息化融合的可能。例如,测量的数据来源不再局限于问卷或测验,可以来自虚拟环境中的行为痕迹和文本信息,甚至还可以是图片和视频信息以及穿戴设备记录的生理信息。在实现对个体特质、能力测量的基础上,可以为个体提供有效的反馈和建议,实现个性化的自适应学习。尤其后疫情时代加速了在线教育的大规模实现与应用,虽然能够解燃眉之急,但在线教育与评价的新范式远未达到规范与合理化要求,心理测量与其他学科领域的融合与发展还需要留意诸多问题。在未来多种测量范式共存的发展趋势下,现代心理测量学已不仅是心理学与统计学的结合,其与不同的学科领域也形成了交叉联系。当代心理测量学是一个多元化的研究领域,在珍惜多元化发展的同时,应突破不同领域各自为政的壁垒,重新思考心理和教育测量的标准和概念体系。
心理测量快速发展的趋势带来了一些挑战性的问题。首先,随着认知科学和信息技术的发展,比以往任何时候都丰富的个人数据与传统测量数据有很大不同。其次,数据与模型复杂性的增加导致许多模型都是一个黑盒子,隐藏了重要的算法和假设,而心理测量及其他学科领域对于大数据的收集和解释能力仍然非常有限。因此,对测量工具的开发、实施与解释,应更加重视数据采集与处理工作的可靠性,心理测量的专业人员必须作为可靠的中间人,坚持对测量结果和使用评估的积极追求。科学合理地分析测量数据并根据测量结果做出正确的决策,对于当今社会和未来仍然至关重要。在这个过程中,心理测量学家应当秉承谨慎与乐观的态度,发挥自身优势,对具体的操作程序与标准规范提出有效的评估方案,兼顾测量的效率与公平。
从未来的发展看,心理测量学不仅仅是一个提供统计与数据分析模型或方法的工具箱,更重要的是,面对当下快速更迭的应用环境与需求,激发各领域对测量意义的思考,在心理测量与其他学科理论快速融合的发展期,坚持对测量目标和方法实质含义的追求,从而推动心理测量理论和实践的长足发展与进步。
(作者单位:北京师范大学中国基础教育质量监测协同创新中心)
来源:中国社会科学网-中国社会科学报 作者:辛涛