你的位置:kaiyun官方网站 登录入口入口 > 新闻 >
开云kaiyun从而在保持性能的同期显赫镌汰内存占用-kaiyun官方网站 登录入口入口
发布日期:2026-04-17 08:52    点击次数:111

开云kaiyun从而在保持性能的同期显赫镌汰内存占用-kaiyun官方网站 登录入口入口

DeepSeek-R1 背后要道——多头潜在留神力机制(MLA),刻下也能疏忽移植到其他模子了!

况兼只需原始数据的 0.3%~0.6%。

这项商酌由复旦大学、华东师范大学、上海 AI Lab 等汇聚薄情,复旦讲解邱锡鹏(Moss 大模子技俩认真东谈主)也在作家名单之列。

他们薄情了MHA2MLA这种数据高效的微调步伐,使基于 MHA(多头留神力)的大讲话模子(LLMs)简略奏凯篡改到 MLA 架构。

以 Llama2-7B 为例,MHA2MLA 在镌汰推理资本(如减少 KV 缓存大小 92.19%)的同期,能将性能蚀本欺压在较小范围(如 LongBench 性能仅下落 0.5%)。

具体咋回事,底下咱们接着看。

掌捏 DeepSeek 中枢诀要

多头留神力 MHA(Multi-Head Attention)是 Transformer 架构中的一个中枢组件,允许模子同期热心输入的不同部分,每个留神力头齐独巧合学习输入序列中的不同特征。

相关词,跟着序列长度的增长,键值(Key-Value,KV)缓存的大小也会线性加多,这给模子带来了显赫的内存包袱。

为了惩处 MHA 在高计较资本和 KV 缓存方面的局限性,DeepSeek 冲破性地引入了多头潜在留神力机制 MLA。

浅薄说,MLA 最大革命之处在于:

阁下低秩汇聚压缩键值技艺,减少了推理时的 KV 缓存,从而在保持性能的同期显赫镌汰内存占用。

这一技艺也被视为 DeepSeek-V3、DeepSeek-R1 等当红炸子鸡模子背后的要道。

而刻下,为了进一步镌汰其他 LLMs 的推理资本,商酌东谈主员开导了一种能将收受 MHA 的模子快速适配 MLA 架构的步伐——MHA2MLA。

这一数据微调步伐包含两个要道部分:

partial-RoPE,即从对留神力分数孝敬较小的查询和键的维度中移除旋转位置镶嵌(RoPE);

低秩肖似,基于预磨砺的键和值参数引入汇聚奇异值剖析(SVD)肖似。

先说第一个。Transformer 架构中,RoPE(旋转位置编码,Rotary Position Embedding )   通过旋转操作将位置信息融入查询向量 Q 和键向量 K ,匡助模子捕捉序诸君置关系。

但商酌发现,在计较留神力分数时,并非通盘维度的 RoPE 对遵循孝敬疏通。

换句话说,即使去除那些对留神力分数影响较小的部分维度的 RoPE,表面上不会对模子交融凹凸文的才略变成要道影响。

基于此,商酌东谈主员通过计较敏锐度标的来笃定哪些维度的 RoPE 孝敬较小。

具体而言,关于每个维度,计较 RoPE 变化时留神力分数的变化历程。一朝变化历程低于特定阈值的维度,即被判定为对留神力分数孝敬小。在后续计较中,这些维度将不再应用 RoPE。

最终实考证明,partial-RoPE 这一政策在不显赫影响模子性能的前提下,减少了计较量。

再说低秩肖似政策。

该步伐基于预磨砺的键和值参数,引入汇聚奇异值剖析(SVD)肖似。

SVD 是一种矩阵剖析技艺,通过对键值矩阵进行 SVD 剖析,不错用低秩矩阵肖似原始矩阵,从而减少参数数目。

具体杀青中,商酌东谈主员领先索求预磨砺模子中的键和值参数矩阵,对这些矩阵进行汇聚 SVD 剖析;然后字据模子的性能和压缩需求,构建低秩肖似矩阵,用这些低秩肖似矩阵替代原始的键值矩阵参与后续计较。

最终遵循显现,此举灵验镌汰了模子推理时的计较量和内存占用。

性能着实不变,将 Llama2 KV 缓存减少 90% 以上

试验才能也考证了 MHA2MLA 步伐的灵验性。

能在显赫镌汰推理资本的同期,保持以致培育模子性能。

商酌东谈主员及第了用 MHA 或 GQA 事先磨砺的不同畛域(135M-7B)的 LLMs,然后设置了对照组。

一组是基于传统 MHA 的原始模子,用于顺利对比 MHA2MLA 步伐在疏通任务和数据集上的性能默契;另一组是收受分组查询留神力(GQA)的模子,GQA 动作 MHA 的变体,在一定历程上优化了计较资本,将其与 MHA2MLA 对比,能更显然地展现 MHA2MLA 的上风。

在评估其学问性推理才略的六个基准测试中,商酌发现:

与原始 LLMs 性能比拟,四个基础模子的性能变化极小,135M 模子性能下落 0.25%,360M、1B7 和 7B 模子分裂有 0.03% 、0.03% 和 0.37% 的性能培育或保持。

这标明微调数据未显赫影响原模子性能,MHA2MLA 能灵验杀青架构迁徙,况兼微调数据仅需预磨砺数据的 0.3%-0.6%。

以致,较大模子在篡改到 MLA 架构时性能下落更少,这阐述这一步伐对畛域更大的模子更灵验。

此外,在长文本生成才略评估中,以 LongBench 为基准,MHA2MLA 比拟磨砺后量化步伐,在压缩率和精度均衡上默契出色。

当 dkv=16 时,MHA2MLA 可杀青 87.5% 的压缩率,精度蚀本仅 3%;与 4-bit 量化逢迎后,压缩率可达 92.19%(dkv=64 + Int4HQQ)和 96.87%(dkv=16 + Int4HQQ),精度蚀本分裂为 -0.5% 和 -3.2%,优于通盘 2-bit 量化的基线模子。

这也响应了 MHA2MLA 步伐简略与量化技艺精采兼容。

详尽以上试验,不错看到以 Llama2-7B 为例,MHA2MLA 在镌汰推理资本(如减少 KV 缓存大小 92.19%)的同期,能将性能蚀本欺压在较小范围(如 LongBench 性能仅下落 0.5%)。

不外,论文也提到了商酌局限性。

受计较资源法例,未在更大、更千般化的开源大讲话模子上考证 MHA2MLA;且由于 Deepseek 未开源 MLA 的张量并行推理框架,难以探索大于 7B 的模子。

下一步,商酌东谈主员计算在更多模子上进行考证。

感赞佩的童鞋不错检验原论文 ~

论文:

https://arxiv.org/abs/2502.14837

代码:

https://github.com/JT-Ushio/MHA2MLA开云kaiyun



栏目分类
相关资讯