
近年来,变形金刚在自然语言处理领域取得了巨大成功。从机器翻译到文本的产生,强大的建模功能使不间断的突破能够理解语言和发电。但是,随着模型的大小不断扩大并且应用程序场景变得复杂,传统的变压器体系结构逐渐暴露在缺陷中,尤其是在与长期文本,批判性获取信息和幻觉等任务交谈时。由于对无关的上下文的过度关注,导致变压器通常被困,从而导致模型性能有限。为了克服这个问题,来自微软和Tsinghua大学的研究团队建议DIFF Transformer是基于差异的注意机制的主要模型的创新架构。纸张标题:差分变压器纸链接:https://openreview.net/pdf?id= ovocm1gghn代码链接:Https://aka.ms/diff-transformer的主要思想是通过计算软态注意力图的两个行之间的差异来增强对基本环境的关注,同时消除了注意力的噪音。 DIFF变压器具有以下重要的好处:在语言建模活动中,DIFF变压器在模型的大小,受过训练的代币数量等方面显示出很大的可伸缩性。它仅需要约65%的模型大小或受过训练的代币数量的65%即可实现与传统变压器相当的性能,这可以极大地提高语言模型的常见性能。在一系列活动中,例如长期模型文本,有关获取,数学推理,苦难,上下文化和激活量的基本信息,DIFF变压器显示出独特的优势,与传统变压器相比,这有了显着改善。 DIFF变压器的特性在自然领域具有广泛的应用前景语言处理,并有望成为开发语言模型的新推动力。此外,还进行了有关初步验证方法在视觉,多模式等领域的有效性的后续研究,该研究表明了其对跨模式大学的潜力。该研究被ICLR 2025接受,被选为口头纸(选择1.8%)。方法本文提出了一种称为自定义变压器(DIFF变压器)的基本模型体系结构,以解决传统变压器在长文本建模中过度分配对无关上下文的关注的问题。该方法通过差异的注意机制加强了临界环境的重点 - 虽然消除了注意力的噪音,从而显着改善了许多活动中模型的性能。差异 - Ormer运动机制机制的机制在SoftMax的形成中称为不同的令牌,但性质SoftMax的模型使该模型难以完全消除无关的环境的影响。为了克服这个问题,DIFF变压器引入了注意力变化的机理。具体而言,该机制将查询矢量(查询)和密钥向量(键)分为两组(头)大小(头)大小,计算两组的软max图,然后将两个组的差异作为最终注意力标记。该设计类似于电子工程放大器的变化,以及降低噪声的噪声,从而减少了两组信号以消除标准噪声。数学对多样性注意的表达如下:矢量的值分别是两组查询和关键矢量,以及图1。绘图机制的多样性和伪代码以同步研究速率,将重新分析的重新分析为:一开始是在进行的。是一个学识渊博的向量,标题多样性的影响以进一步提高模型的表达能力,DIFF变压器采用了长头的IS机制。每个关注的头脑都在独立地计算差异的注意力和清洗长输出到最终结果。特定的实现如下:其中输出投影矩阵在其中。为了维持与变压器梯度相同的,DIFF变压器使用RMSNORM实现在每个标头输出后应用一个独立的归一层。是注意力头的数量,图2。记住变压器和DIFF变压器之间的注意力标记的分布,图2显示了DIFF变压器和传统变压器之间在分配注意力标记中的显着差异。 May -set将一块基本信息插入在大部分不相关文本的中间,并描述了当模型获取主题信息时的注意力标记的分配。注意在整个上下文中,数十个传统变压器被广泛分配,并分配了几个标记。尽管DIFF变形金刚可以将更高的分数集中在目标答案上,并且几乎没有关注无关的环境。在处理长期获取文本关键信息时,分配注意力标记的稀疏性和准确性也使差异变压器明显好于变压器。具有-set的专家通过一系列实验在许多方面证明了其余的差异变压器性能,从而证实了该应用在大语言模型中的独特潜力和好处。语言建模人员研究DIFF变压器性能的性能,如图3所示。GE建模。例如,具有6.8b参数量表的DIFF变压器与具有语言建模损失的11B参数量表变压器相当。图3。语言建模模型参数,长文本建模数据数据数据数据数据以64k上下文长度扩展模型,并使用长文本数据进行了审查。结果表明,合并的合并 - 与日志(NLL)指示器的负log的含义,diff变压器比在不同位置的变压器更好,并且可以在上下文中更有效地使用长信息。照片4。长本教科书数据模型绩效评估关键信息搜索作者审查了该模型通过多黑色实验从大量上下文中检索基本信息的能力,如图5所示。实验表明,如果文本更长,并且答案处于更高的位置,则变压器的多样性在不同长度上显示出较高的精度。例如,在64k中上下文,当答案的深度为25%时,DIFF变压器比变压器高76%。此外,统计数据显示,DIFF变压器还显示了关注注意分数的能力提高,可以准确搜索基本信息,并增强了更高的信噪比。图5。上下文研究的多针搜索评估上下文作者回顾了从两个角度研究DIFF变压器上下文的研究:序列上下文和样本序列的多样本上下文研究。如图6所示,在研究多样本上下文的任务中,作者使用了4个不同的数据集(TREC,TREC-FINE,BANKing-77和Clinic-150),并逐渐将示例数量增加到总长度达到64K标记。结果表明,在不同数据集中,DIFF变压器比变压器更好,平均精度有了显着提高。图6。多样本研究环境上下文稳定,作者通过中断浪漫的示例来回顾模型的性能稳定性。如图7所示,在示例的不同示例下,差异 - 型淋巴变压器的性能有所不同,明显低于变压器,这表明它对对输入和更稳定的粘附不太敏感。图7。作者对作者幻觉的样本顺序对作者的幻觉,他们使用文本以及问答任务作为两种常见的幻觉评论,以评估DIFF变压器在降低大型模型中幻觉中的性能。结果显示在图8中,显示变压器的差异显着提高了准确性,并在形成摘要并回答问题时会降低幻觉。这是因为差异的注意机制 - 不同,可以准确地搜索重要段落,并避免从不相关的环境到模型预测。。图8。使用文本和解答活动对非正态激活值的幻觉分析,作者还发现,DIFF变压器可以显着减少模型激活异常值,从而为模型激活值的体积提供了新的可能性。实验表明,注意日志和隐藏状态中DIFF变压器的最大激活量显着低于变压器。例如,在激活注意力激活的TOP-1值中,DIFF变压器比变压器低约8倍。解释这一财产,DIFF变压器的性能还比变压器的表现更好,如图9.Cloud 9.Cloud 9.注意力激活量所示,该集合在推理任务中的性能进一步证实了集合。作者使用培训的两个阶段来执行t的管理微调他3B实践模型,并在8个数学数据(例如数学)中评估了该模型的性能。在第一阶段,20B令牌合成数学数据用于正确调整模型以使模型能够获得基本的数学功能。综述的结果如图10所示。从15B令牌开始,差异变压器显示出比变压器更好的数学能力,并且在20B令牌的结束时,精度达到了约11%。图10。在第一阶段对数学合成数据的微调。在第二阶段,TheAuthor使用DeepSeek-R1输出设定数据设置Openthoughts-114k-Math以距离模型,从而使功能模型更强。如图11所示,与变压器与8个数据集相比,DIFF变压器在不同程度上有所改善,平均准确率为7.5%,这表明对差异机制的机制的上下文进行建模更强的能力 - 差异差异。在不良活动中也很重要。图11。关于推理能力和未来工作的深度评估的第二阶段讨论,自发布以来,变形金刚引起了很多关注和讨论。作者就字母纸张讨论和平台的拥抱进行了深入的讨论。在X平台(以前是Twitter)上,Google Deeang Pmind高级人员研究科学家Petar Vit Core作者Lucas Beyer在阅读文章后也写了一份纸质摘要,相关文章获得了数十万观看次数。当前,diff变压器也包含在拥抱面的变压器库中。拥抱脸:https://huggingface.co/papers/2410.052588alphaxiv:https://wwwww.alphaxiv.org/abs/2410.05258v1petarveličković: https://x.com/petarv_93/status/1874820028975267866lucas beyer:https://x.com.com/giffmana/status/1873869696542555555555440799transformers库:AIN/SRC/变压器。此外,除了语言之外,还值得探索将DIFF变形金刚应用于其他方式。最近的工作DIFFCLIP扩展了视觉和多模式场的差异,显示了在各种模态活动中diff变形金刚应用的更多结构和潜在特性。 diffclip:https://arxiv.org/abs/2503.06626摘要本文的贡献主要在两个方面:(1)diff变压器有效地解决了通过创新的注意机制在文本处理文本时有效地解决噪声中断和注意力不准确的问题; 。