
该项目是由北京大学物理学院的朱·霍克辛(Zhu Huaxing)先生和副校长Cao Qinghong组织和指导的。基准设计,项目管理和数据集成的主要任务由主要的学生团队完成,包括Qiu Shi,Guo Shaoyang,Song Zhuoyang,Sun Yunbo,Cai Zeyu,Wei Jiashen,Luo Tianyu等。智力。 Phybench项目结合了来自物理和姊妹系的200多名学生,以进行形成,评估和基准测试人员的工作。这位高级参与者的参与者在中学物理物理学中至少包括50枚金牌,以及亚洲物理奥运会和国际物理奥运会的金牌。这种大规模和质量的合作不仅显示了深厚的学术基金会和良好的组织北京大学生的愤怒能力和协调,但也为Phybench提供了稳定的保证,可以产生高质量的结果。在大型语言模型(LLM)迅速发展的时候,模型的推理能力已成为模型功能的代名词。 OpenAI或系列,DeepSeek R1和其他切割模型单独发布。在增强技术的帮助下,这些大型模型经常在许多科学的基准上树立记录,甚至声称自己是“超越人类专家”。但是,尽管该武器具有模型功能并审查基准繁殖的武器,但越来越多的基准需要转向异常的知识点或数学竞赛问题。尽管这些问题可以“识别”模型,但它们逐渐偏离实际情况,并且可能很难真正反映模型的实际性能。最近,北京大学物理学院以及Artificia研究所L Intelligence和其他部门已推出了新的评论基准Phybench。 Phybench包含500个精心设计的高质量物理学(图1),涵盖了高中物理,大学物理和物理学的困难。这些问题基于实际的身体状况,在人类中不是抽象的,但是它们赢得了许多模型。解决物理问题时,思考模型的思考链也使他们的缺点暴露在理解和推理能力上。论文链接:https://arxiv.org/abs/2504.16074项目URL:https://phybench-ficial.github.io/phybench-nemo/datasets:https://huggingface.co/datasets/eureka-eureka-laben-com--- Phybench的尝试为分析大型模型的真正有效推理能力提供了一种全新的工具和见解。图1:问题和两种检查方法的示例:树木编辑和准确性编辑距离。表1:比较现有的基准测试,Phang Ybench在较差的数据集上具有相对较大的尺寸,同时引入了创新的分数测量:树木编辑距离。分析方法表达树距离(EED分数)传统基准通常取决于准确性,单个指标:设置唯一正确的答案,并且模型只能在完全匹配时得分。为了促进标记,问答问题通常被重写为多个选择,或者必须由数字值代替。这将导致对答案的答案量严重妥协,并且提供如此多的条件会导致模型“根据选择预测过程”,或者缺乏使用分析表达式表达普遍关系的能力。同时,在具有高差异的样品中,0/1标记将使所有模型在标记水平上均为零,并且强度和弱点的差异不会反映。 ThE EED分数(表达式 - 编辑Delsany的树)使解决方案更接近人类标记。这将数学表达式放在表达树上,然后计算模型的答案与答案参考之间的编辑距离:树结构越近,标记越高。这种机制释放了流体,细颗粒标记,这可能显示出更多问题的差异,统计效率的显着提高。实验表明,使用EED得分的500个问题的能力等于使用0/1精度的1,500个问题。上图(图1)显示了在准确性和EED分数下的同一问题的三个不同答案之间的比较:前者只能对“所有错误 /正确 /正确”提供粗略的评论,而后者的数量则描述了模型解决方案和正确答案之间的“距离”。实验结果:切割模型与人类专家之间的差距。 Phybench团队招募了81北京大学ST在3小时的时间限制内提出8个问题,并与最先进的AI模型发起了人机战争。结果表明,即使是最强的双子座2.5 Pro也只能正确回答36.9%的问题,而EED得分为49.5%。 “人类专家”很容易被压碎,平均准确性高达61.9%,而EED得分高达70.5%。排名前25%的主题的准确率达到了71.4% - 几乎是AI最强的两倍。其他模型与人之间的差距更为显着。这个重要的空间显示了在此阶段的物理推理情况下LLM的瓶颈。 Phybench还提供了模型功能的颗粒化比较。可以看出,即使Gemini 2.5 Pro和O3仍然远离人们,但与前几代识别模型相比,它已经取得了重大发展。尽管诸如DeepSeek-V3之类的基本模型不超过主流通知模型,但它们也显示了其余的结果。小骗局phybencang persion H中的QWQ-32B和DeepSeek32B蒸馏模型等诸如QWQ-32B和DeepSeek32b蒸馏模型的失败的模型失败了,这可能归因于物理理解不足。分析由思想链引起的错误:系统记录和评估模型错误的PP×rrphybench团队,并将两个主要模块中模型和推理能力的模型理解分开:物理失调(PP)(PP)和稳定推理(RR)(RR)(RR):物理理解(PP):在此阶段:在此阶段,模型进行了强烈的推理。该模型需要识别与问题相关的物理对象,变量和动态关系,并且很好地判断了物理效果很重要并且可能被忽略。如果PP是错误的,那么整个后续推理将偏离。 (示例1显示了典型的PP错误)强推理(RR):在此阶段,该模型写了大量的“草稿”,简化了表达式步骤 - 步骤,并且可以解决方程式。此阶段的推理模型不是v在此阶段有效推理。 “草稿”比人更长,并且通常会造成“低水平的错误”。 (示例2显示了典型的RR误差)PP和RR是Kahaliling构成了一个常见的物理思维链。未来的观点促进了物理理解和AI推理能力的发展。 Phybench的愿景不仅仅是“分析”,但更多的是“领导” AI探索物理世界的无尽可能性。 Phybench版本不仅为评估大语模型在物理理解和推理中的能力提供了一个新的强大基准,而且还指出了AI系统未来开发的主要方向。我们精心设计的真实和复杂的身体状况旨在深刻启发和验证AI理解世界和做出可靠推理的能力,并推广AI系统以真正实现对世界的理解,融合和纵容的能力。看来,PHybench团队将继续致力于扩展和不断变化的数据集,并计划结合更多物理学,跨学科的跨领域,甚至挑战人们尚未解决的尚未解决的科学难题。我们认为,通过提供更大的物理挑战的深度和程度,Phybench可以有效地培养AI,以破坏未知领域的提供和探险者的界限的“明智的伴侣”或“超级帮助”。