科学质量的国际评估从未中断过。主要有三个大规模的青年科学质量评估系统,即国际学生评估项目(PISA)、国际数学和科学评估(TIMSS)和国家教育进展评估(NEAP)。由具有更多测量次数的研究人员开发的科学质量评估工具是TBSL基本科学质量量表(基本科学素养测试)。以下是对这些量表的评价对象、评价目的、评价内容、试题及例题的分析,为我国青少年科学素质评价提供参考。

国际学生评估项目

国际学生评估项目是国际经济合作与发展组织(经合组织)的一个评估项目,旨在监测教育系统的有效性。它主要评估即将完成基础教育的15岁学生。其目的是测试学生是否能够掌握在基础教育结束时参与社会所需的知识和技能。第一次PISA评估是在2000年进行的,此后将每三年举行一次。评价主要包括三个方面:阅读质量、数学质量和科学质量,每年侧重一个方面。PISA 2006年的科学素质评估从背景、科学知识、科学能力和科学态度四个维度构建了试题框架。

根据最近的国际学生评估方案科学质量测试,国际学生评估方案侧重于审查重要的科学概念和在科学知识测量中的应用,主要选择材料科学、生命科学、地球和空间科学和技术系统。此外,还有科学探究和科学家如何解释科学。在PISA的科学含量测试中,地球和空间科学含量的比例较高。PISA的姿态测试不仅有单独的姿态测试模块,而且在知识和能力测试中包含了姿态测试的主题,使得姿态测试更加情境化和具体化。

就题目类型和评分而言,PISA有四种能力评估和科学知识:简单多项选择题、复杂多项选择题、封闭式自拟答案题和开放式答案题。每个封闭的自建答案问题和开放答案问题都有评分指南。大多数项目使用两分计分法,即满分或零分。对于开放式问题,根据学生回答的程度,分为三类:“满分”、“部分分”和“零分”。

PISA示例

[问题:一个农民在一个农业实验室里管理奶牛。牛棚里有许多苍蝇,影响动物的健康。因此,农民向牛棚和牛身上喷洒含有“杀虫剂A”的溶液。这种杀虫剂几乎杀死了所有的苍蝇。然而,一段时间后,有许多苍蝇。所以农夫再次喷洒农药。这种喷雾的效果与第一种喷雾相似。虽然它没有杀死所有的苍蝇,但它杀死了大多数。又过了一段时间,有许多苍蝇。结果,杀虫剂又被喷洒了。这种事情一次又一次发生,一共喷了五次杀虫剂,结果很明显,“杀虫剂一号”杀灭苍蝇的效果越来越差。农民注意到了他的喷洒过程。他首先准备了一大瓶农药溶液,用于所有五次喷洒。因此,灭蝇效果越来越差的可能原因是,农民已经得出结论,杀虫剂由于储存时间长而分解了。

本课题综合考察的科学知识和科学能力见表1。

二。TIMSS(国际数学和科学研究的趋势)

TIMSS(国际数学和科学研究的趋势)是由国际教育成就评估协会实施的。国际能源机构在20世纪60年代和80年代初举行了两次数学和科学评估,并在1995年举行了第三次国际数学和科学评估。自1999年以来,国际能源署每四年对四年级和八年级的学生进行一次测试。TIMSS的研究目标主要是了解学生对数学和科学课程的掌握情况,并对参与国的教育做出更清晰的描述,以便参与国能够了解本国教育的优势和劣势。TIMSS 2007年对科学素质的评价是从三个维度进行的:第一是内容维度,如生物、化学、物理和地球科学;二是认知维度,包括认知、应用和推理三个层次,主要评价学生在解决科学问题时所经历的思维活动和思维过程。第三个是综合维度,即科学探究,它试图测量学生解决探究任务的能力。就科学内容而言,TIMSS包含了更多与材料科学相关的主题。

TIMSS有两种类型的问题:选择题和建设性回答题。选择题为学生提供了四个等待选项,其中一个是正确的。在构建回答问题时,学生需要构建自己的答案。每个建设性反应测试都有评分指南。评分指南反映了学生对不同水平的想象和数据的理解,并以答案样本的形式为评分者提供重要参考。

TIMSS的例子(四年级)

凯蒂想把沙子和铁屑的混合物分开。她怎样才能实现她的目标?

一摇混合物,铁屑就会在沙子上面。

向混合物中加水,沙子就会溶解在水中。

将混合物通过顶部有沙子的筛子过筛。

D.用磁铁吸引混合物,这将吸引混合物。

3.NAEP(美国教育进步评估)

NAEP(美国教育进步评估)是美国唯一一个全国性的、有代表性的、持续的评估学生学业成绩的项目。自1969年以来,每两年进行一次全国性测试。NAEP的学业评价是对学生整体学业成就的总体调查,而不是个人诊断性评价。评价对象通过随机抽样获得,评价主体根据不同年份进行选择和确定。NAEP的科学质量评估目标是四年级、八年级和十二年级。NAEP的科学评估基于美国国家科学课程标准。评价目标是学生知道什么和能做什么。2009年的科学素质评价框架分为科学知识和科学能力。科学知识主要从四个认知维度来考察:什么是科学知识,如何去做科学知识,为什么要去,什么时候去,去哪里。评价能力的四种类型是科学原则的识别、科学原则的应用、科学探究的应用和技术设计的应用。

NAEP还包括两种类型的试题:选择回答问题和构建回答问题。在NAEP,这两种题型被分开使用,并相互结合形成多样化的试题。

NAEP的例子(四年级)

在炎热潮湿的天气里,空气中含有大量的水蒸气。当空气变得非常冷时,这种蒸汽会发生什么情况?

P4.6,识别科学原理/来源:NAEP 2003

2001年,美国教育部对NAEP、TIMSS和国际学生评估项目进行了比较研究。NAEP在所有内容领域都有相似的比例,TIMSS有更多与材料科学相关的主题,PISA有更多与地球科学相关的主题。就问题类型而言,这三个问题是比例最大的选择题。NAEP的问答比例为43%,而TIMSS和国际学生评估项目的问答比例分别为21%和23%。就情境而言,由于情境是PISA的一个重要测试维度,66%的问题与真实情境相关。在NAEP和TIMSS,实际情况问题的比例分别为23%和16%。对于多步推理能力的要求,PISA题目的比例为77%,NAEP和TIMSS的比例分别为44%和31%。

四、基本科学素质测试(TBSL)

基本科学素养量表tbsl(基本科学素养测试)是由南非学者Laugksch和Spargo开发的。后来,中国台湾学者金将其翻译成繁体中文,并在台湾进行测试,具有良好的信度和效度。在金译本的基础上,我国学者赖对该译本进行了改编,并对广西地区少数民族高中生进行了测试,获得了良好的信度和效度。

TBSL量表主要是基于所有美国人科学领域的12年级学生的科学数学和技术素养目标。这个目标定义了所有学生在学校科学教育中应该掌握什么样的知识、技能和态度,以便成为具有科学素质的公民。TBSL量表最初从《科学为所有美国人》中选择了472个问题,并在预先测试后保留了110个问题。该量表是根据米勒的科学素质三维结构模型设计的,是对以往测量科学素质的三维工具的完善。

TBSL由三部分组成:科学内容、科学本质、科学技术与社会的关系。科学内容包括地球与健康科学、生物科学、材料科学和健康科学。科学的本质包括对科学知识的时间性和经验的理解、科学的主体性和创造性、科学的社会性和文化性、观察和推理、理论和规律等。STS包括对科学技术和科学技术风险之间相互关系的理解。

TBSL是一个封闭的回答“对-错-不知道”的方法,共有110个问题。共有72个关于科学内容的问题,22个关于科学本质的问题,16个关于科学技术对社会的影响的问题。每个问题的正确答案都是1分,错误的答案是0分,没有负分。要达到科学素质的基本水平,科学知识部分应正确回答45个问题,科学本质部分应正确回答13个问题,STS部分应正确回答10个问题。

V.摘要

(1)大规模科学质量评估工具相对复杂,评分和数据分析方式多样。

比萨、TIMSS和比萨有一份很长的科学质量评估试卷,大部分是分块完成的。例如,NAEP2000的科学质量评估报告有195个问题,每个学生只需要完成其中的一部分(50个问题,时间控制在30分钟左右)。另外30%的学生完成了动手实验或计算机测试。这种评价方法对数据收集和分析提出了巨大的挑战。数据分析主要基于IRT(项目响应理论)。

TBSL相对简单。只需要计算出正确的答案,就可以得到个人或群体的科学素质水平。这种测试在应用和数据统计方面相对容易操作。然而,在检验科学能力方面有一定的局限性。

(2)科学素质水平的反映。

国际学生评估项目和TIMSS将科学质量分为几个等级,并对不同等级的分数给出一定的标准。TBSL把科学素质分为两个层次:具有基本科学素质和不具有基本科学素质。这种测试不仅可以计算出个人的总分是否达到了基本的科学素质水平,还可以计算出不同部分是否达到了一定的水平。更容易反映个人或群体科学素质水平的优劣,有利于科学素质的培养。

(3)科学质量评价的内容。

综合这四种主流工具,测试所涵盖的知识点均服从美国科学教育标准的内容,即材料科学、生命科学、地球和空间科学。随着新一代科学教育标准的发布,工程与技术越来越受到重视,因此最新的PISA、TIMSS和NAEP测试也逐渐包括工程与技术,但比例不高,约占10%-15%。由此可见,工程技术已经成为未来青年学生科学素质评价中不可或缺的组成部分。