编辑推荐:
为解决 PtBL 中同伴互评可靠性及所需项目、评价者数量的问题,泰国曼谷巴吞他尼医学院研究人员开展相关研究。结果表明其有一定可靠性并确定了关键数量。该研究为医学教育评估提供参考,推荐科研读者阅读。
在医学教育的广阔天地里,项目式学习(Project-based learning,PtBL)就像一座充满活力的知识乐园,学生们在其中通过完成实际项目来探索知识、提升能力。而同伴互评(Peer-assessment)作为其中的一种重要评估方式,正逐渐崭露头角。
同伴互评,简单来说,就是学生们依据预先设定的标准,互相评价彼此的表现或作品。它就像是一场知识的交流派对,学生们在评价他人的同时,也能更深入地理解课程目标,提升自己的参与度。想象一下,在一场医学知识的讨论中,同学们各抒己见,互相点评,不仅能碰撞出思维的火花,还能让大家对知识的理解更上一层楼。从认知和教学的角度看,同伴互评就像一位贴心的学习伙伴,能增强学生的自主性,让他们更积极地投入到学习中。而且,它既可以在学习过程中作为形成性评估,帮助学生及时调整学习方向;也能在学习结束时作为总结性评估,检验学生的学习成果。
然而,这位看似完美的 “学习伙伴” 却存在一些让人担忧的地方。在总结性评估的情境下,同伴互评的可靠性和有效性常常受到质疑。就好比在一场重要的考试中,大家会怀疑同伴的评分是否公正、准确。毕竟,友谊的小船可能会在评分时 “悄悄跑偏”,产生友谊偏见。而且,以往的研究发现,同伴和教师的评分之间往往存在不小的差异,这种差异可能源于不同的学习环境和评价背景。虽然大家通常认为教师这位 “专家” 的评价是衡量有效性的金标准,但也有研究表明,同伴互评在某些时候可能比教师评价更可靠,效果更好。可目前关于同伴互评在小组合作情境下的有效性和可靠性的数据还比较有限,尤其是在总结性评估中,到底需要多少评价者才能达到可接受的可靠性,这还是一个未解之谜。
在项目式学习这个大舞台上,也存在一些挑战。它以探究、以学生为中心、强调合作和解决实际问题为特色,能让学生在学习过程中更有自主性和掌控感。但在这样的学习模式下,如何进行有效的评估,确保评估结果既可靠又能反映学生的真实水平,成了教育者们面临的一大难题。
正是在这样的背景下,来自泰国曼谷巴吞他尼医学院(Phramongkutklao College of Medicine,PCM)药理学系的 Sethapong Lertsakulbunlue 和 Anupong Kantiwong 决心深入探索这个神秘的领域。他们在《BMC Medical Education》期刊上发表了一篇名为 “Evaluating the dependability of peer assessment in project-based learning for pre-clinical students: a generalizability theory approach” 的论文,试图为这些问题找到答案。
经过一系列严谨的研究,他们得出了一些重要结论。在 PtBL 课程中,同伴互评具有一定的可靠性,学生的评分与教师的评分一致性较好,这意味着在这种学习模式下,学生可以在一定程度上参与评分工作。而且,通过通用 izability 理论(Generalizability theory,G-theory)分析,他们确定了在不同情况下达到可靠评估所需的评价者数量和评估项目数量。这就好比为教育者们提供了一份评估指南,告诉他们在资源有限的情况下,如何合理安排评价者和评估项目,以达到最佳的评估效果。这些结论对于优化医学教育中的评估方式,提高教育质量具有重要意义,为未来的 PtBL 课程评估提供了宝贵的参考依据。
为了开展这项研究,研究人员采用了几种关键的技术方法。在项目式学习课程方面,他们组织 95 名三年级临床前医学生参与了以心血管疾病生活方式改变为主题的 PtBL 课程,学生们分组制作并展示视频。在评估工具上,使用了改编自欧洲医学教育协会(AMEE)指南框架的评分量表,涵盖跨学科数据整合、人际沟通技能和视频质量等多个领域,并通过专家审核确保内容效度。分析方法上,运用了 G-theory 分析评估工具的可靠性,确定不同因素对评分的影响;还进行了验证性因子分析(Confirmatory factor analysis,CFA),检验评分量表的结构效度;通过比较同伴和教师的评分,来评估准则关联效度。
下面来看看具体的研究结果:
- 反应过程:研究人员对 10 组三年级临床前医学生进行了评估,同伴评价者和教师同时对每个小组进行评分。结果发现,学生、医学博士(MD)和健康教授给出的平均分数分别为 54.00 ± 4.03、53.24 ± 4.18 和 54.16 ± 4.16,不同类型评价者的平均分数在各个领域都没有显著差异。这说明在这个项目中,大家的评分 “口味” 还挺一致的,不管是学生还是教师,对小组表现的整体评价没有太大分歧。
- 内部结构和与其他变量的关系
- 可靠性分析:通过计算 Cronbach's alpha 系数,发现同伴、MD 教师和非 MD 教师的系数分别为 0.84、0.81 和 0.92,表明评估工具具有较好的内部一致性。G-theory 分析结果显示,不同评价者类型的评分方差来源有所不同。在完全交叉设计(p × i × r)中,要达到 Phi 系数≥0.70 的可接受可靠性,使用六项目评分量表时,需要 27 名学生、7 名 MD 或 5 名非 MD 评价者;而在嵌套设计(r: (p ×i))中,所需学生评价者减少到 9 名,MD 为 5 名,非 MD 为 4 名 。这就像是找到了不同 “配方” 的评估组合,能在保证可靠性的同时,根据实际情况调整评价者的数量。
- 效度分析:CFA 分析结果显示,各项拟合指数表明模型与数据拟合良好,说明评分量表的结构效度较高。同伴评分与教师评分的相关性分析表明,两者的评分具有可接受的组内相关系数(r = 0.73,p = 0.016),但在人际沟通技能领域的相关性较弱 。这意味着在大部分方面,同伴和教师的评分能达成一定共识,但在人际沟通技能方面,可能还需要更明确的评价标准。
- 后果:在课程结束后,研究人员收集了学生对同伴互评的看法。学生们提到了同伴互评的不少优点,比如能从学生角度提供有见地的反馈,增强参与度和动力,帮助改进作品,还能学习如何给出结构化反馈。不过,他们也担心存在偏见问题。就像大家在评价时,可能会因为和某个同学关系好,就不自觉地给高分,或者因为一些小矛盾给低分。
在讨论部分,研究人员进一步分析了这些结果。他们发现,虽然学生和教师的评分存在方差差异,但两者的组内相关系数较高,这可能与研究中的一些因素有关,比如采用纸质、非匿名评估并伴有定性评论,评价者有机会练习评分,而且学生在某些领域可能和教师有相似的专业知识。对于评价者数量和评分量表项目的可行性,研究结果为教育者提供了重要参考。虽然增加评分量表项目可能会减少评价者数量,但也可能带来时间和精力的问题,所以还需要综合考虑。嵌套设计在本研究中显示出较高的可靠性,减少了学生评价者的数量,不过其准确性在本研究特定情境下可能有限。
总的来说,这项研究成功地证明了在 PtBL 背景下同伴互评的可靠性。通过 G-theory 分析,明确了不同情况下所需的评价者数量和项目数量。虽然同伴互评不能完全取代教师评价,但它能增强学生参与度,丰富学习环境,提供有价值的反馈,对提升评估质量有很大帮助。不过,研究也存在一些局限性,比如样本仅来自特定教育环境的三年级临床前学生,研究模型未考虑某些变量的影响,嵌套设计是通过分析估计的,可能不能完全代表实际结果,而且主题难度差异也可能影响研究结果。未来还需要更多研究,在不同教育环境、学术年份、临床环境和文化背景下进行验证,以进一步完善对同伴互评的理解和应用。