新闻中心

Lora中有多少个参数是多余的？新研究：削减95％

日期：2025-05-04 09:26 浏览：

洛拉的参数是多少？这项创新的研究是洛里技术的特征，表明尽管洛拉的覆盖参数大大降低了模型的性能仍然很强。研究小组尝试了数学推理，代码生成，安全对齐和八种自然语言理解活动的洛里。发现只有5％的LORA参数接受了训练（相当于整个调整参数的0.05％），Lori可以匹配或超过完全维修，Lora和Dora标准等技术的性能。大型语言模型的部署仍然需要许多计算源，尤其是在需要修复降低任务或与人类偏好保持一致时。为了降低高资源成本，研究人员开发了一系列高效技术（PEFT）。在这些技术中，洛拉被广泛采用。但是，洛拉仍然带来大量的内存开销，尤其是在大型模型中。所以，最近的研究重点是通过减少训练有素的参数数量来促进洛拉。最近的研究表明，添加参数（微调tune减去预先施加模型参数的参数）的冗余性很高。受到随机投影的有效性和增加参数的冗余性的启发，马里兰州大学和Tsinghua大学的研究人员提出了一种洛拉的程序，并降低了中断-Lori -lori（洛拉（Lora）的干扰减少）。 Lori使用特定的掩码训练矩阵B时，将低级矩阵A作为固定随机投影的单一固定随机投影保持。为了维持B中最关键的元素，Lori通过选择投影中最高幅度的所有层和元素来进行校准过程，从而占据了广泛的遮罩。如图1（a）所示，即使B具有90％的稀疏性并且A仍然冷冻，Lori仍保持良好的性能。这表明改编专业CESS不需要对A的更新，并且在B中具有显着的冗余。通过应用比Lora更多的强制更新，Lori大大减少了可能的参数的数量，同时更好地保持了适应过程中假装模型的知识。多任务研究对于具有多任务功能的生产模型至关重要，传统上是通过联合培训在数据集的组合中实现的。但是，随着时间的流逝和计算资源，在这种数据组合中进行大型模型的培训非常昂贵。模型合并是不需要培训的替代方法，可以通过合并现有模型来开发强大的模型。此方法是合并Lora适配器的理想选择，以使单个Lora被多任务。然而，如图1（b）所示，异源洛拉斯的直接整合通常会导致参数中断，从而导致洛拉的关节性能小于单任务劳拉。而且，许多现有的集成方法需要反复试验，以确定特定任务组合的最佳方法。洛里（Lori）执行适配器集成，甚至没有选择同伴来解决这些挑战。通过使用固定的，随机的初始投影A，Lori在估计的正交子空间中映射特定的适配器，与多个Loris结合使用时减少破坏。除多任务处理外，安全关键方案还需要每个新引入的适配器，以保持预训练的基本模型的安全对齐，同时增强模型功能。洛里（Lori）提供了一种轻量级的研究方法，可在维持安全性的同时调整模型，并在任务之间按顺序进行培训。该策略是适配器对安全数据的第一个细调，以建立AOF对齐，然后分别适应每个下游任务。但是，如图1（c）所示，持续的研究经常导致灾难健忘，即适应新活动可以认真打破先前获得的知识。洛里（Lori）通过口罩使用矩阵B的稀疏性，这是减轻遗忘的特定任务。与任务参数更新的分离可以促进持续研究，以最大程度地减少干扰，同时保持安全和活动的有效性。为了评估Lori的有效性，具有 - 设定的人对各种基准进行了广泛的实验，这些实验涵盖了自然语言理解，数学推理，代码生成和安全的对准活动。将Llama-3-8B和Mismtral-7b作为基本模型，其M显示了Lori的结果，该结果可实现或超过完整调整（FFT），LORA和其他PEFT方法的性能，而使用比Lora少的训练参数少95％。值得注意的是，在使用Llama-3的HumaneVal中，B中稀疏为90％的Lori比Lora高17.3％。除了单任务改编外，他们还回顾了洛里在多任务环境中的表现局势。 Lori适配器的串行收敛总是比Lora适配器更好，并且非常接近基线Lora基线的性能。在正在进行的研究方面，Lori在轻松忘记安全的一致性方面极大地超过了Lora，同时保持上游任务的强劲表现。纸张标题：Lori：多任务Lowrank适应性纸链接：https：//arxiv.org/pdf/2504.07448代码链接链接：https：//github.com/juzhengz/lorlorihuggingface：https：//arxiv.org/pdf/2504.07448代码： https://huggingface.co/collections/tomg-broup-umd/lori-adapters-67f795549d792613e129001 The Lori method suggested on the paper mainly has the following key points: Lori Freeze Castingshadow Matrix A_T and sparsely update B_T with specific tasks masks; Lori支持许多适配器的特定工作，从而减少了对参数的干扰； Lori通过继续学习和减少灾难健忘，建立安全的适配器。在5月的评论部分 - 有人问ED该方法与以前的过程有何不同（例如IA3）。 Author replied, "IA3 and Lori are different in the way they adjust the models of parameters: IA3 learned the scaling vectorthat is activated by key/value/ffn. The covered parameter is the vector scale. Lori (based on the lora) that decomposes the weight update to a low rank matrix. It retains a frozen and applied a fixed clutter mask Mask B. The author used Llama-3-8B and Mistral7b作为基准模型，所有实验均在8个NVIDIA A5000 GPU上完成，如图1（a）所示，lori保持强劲的性能，当矩阵B be探索90％的稀疏性，以探索稀疏性。基准在数学，程序效果和基准的安全性中显示。ETERS约为1％。 Lori-d通过冷冻矩阵A进一步将参数的体积迫使0.5％，而Lori-S通过将90％的稀疏度施加到与LORA相比的矩阵B-95％降低，从而实现了0.05％的严重压缩。尽管配置参数的剧烈减少，但Lori-D和Lori-S在NLU，数学，编程和安全活动中的表现比Lora和Dora更为可比。适配器融合分子选择了NLU，数学，编程和安全性的四个异源活动，以对Lora和Lori Fusion进行研究。与许多NLU适配器一样，这种设置比融合Folksad适配器更加困难。表3列出了四种活动融合的结果。作者分别使用串联融合和线性融合来进行Lori-D和Lori-S变体。由于Lori具有稀疏的矩阵B，因此基于修剪的程序（例如振幅修剪，领带，敢于）不再适用 - 这些方法将修剪矩阵A，因此在AB矩阵的不均匀修剪技术中。如表3所示，洛拉的直接场景可能导致性能大幅下降（尤其是代码和安全对齐任务的产生）。尽管修剪方法（例如Dare，Ties）可以提高代码性能，但通常以其他任务的准确性为代价。相比之下，Lori在所有任务中都牢固地表现，串联Fusionlori-D方案的表现最佳，几乎等同于单任务的基线，这表明LORI适配器之间略有破坏。即使使用适配器可以实现多任务功能，继续学习，它们也无法提供稳定的安全一致性，即在需要强大的安全保证的情况下。如表3所示，可以通过Lora或Lori合并实现的最高安全评分为86.6。为了解决这个问题，作者采用了一个两阶段的培训过程：首先，将安全适配器训练到安全对齐的数据集中；然后，将其适应流下方的每个任务，包括自然语言理解（NLU），数学和代码。图3显示了正在进行的实验Instudy的结果。洛拉（Lora）显示出严重的灾难，这在安全对齐中被遗忘了，尤其是安全→NLU实验 - 这可能是由于大型NLU训练集（大约170,000个示例）。在所有方法中，Lori-s都获得了最佳的安全对齐方式预订，甚至比单任务Lori-D更好。这是因为它的B矩阵是90％的稀疏性，因此可以在安全对准和任务适应之间进行参数更新的分离。洛里·D（Lori-D）还显示了一定的抗毛病能力。为了进行任务适应，洛里-D通常优于洛里 - S，因为后者的根本稀疏性限制了其灵活性。通常，洛里（Lori）提供了一种轻巧，有效的方法来产生安全适配器，以维护对齐流程中的对齐适应性。 dEtail，请参考原始论文。