麻仓优快播蚂蚁国产GPU测验大模子细节曝光！Ling模子研发负责东谈主复兴：对于咱们抠FLOPS的一些点滴

你的位置：男性做爱性交技巧 > 色酷影院 > 麻仓优快播蚂蚁国产GPU测验大模子细节曝光！Ling模子研发负责东谈主复兴：对于咱们抠FLOPS的一些点滴

麻仓优快播蚂蚁国产GPU测验大模子细节曝光！Ling模子研发负责东谈主复兴：对于咱们抠FLOPS的一些点滴

发布日期：2025-07-06 12:18 点击次数：193

蚂蚁开源大模子的低老本测验细节麻仓优快播，疑似曝光！

这段时期，蚂蚁一篇期间论文激发关注。论文中表示，他们推出的两款 MoE 大模子，好像在国产 GPU 上完成与英伟达同效的测验。一时期，该音尘在期间圈发酵，登上了热搜，以致还传出「筹算老本低于 DeepSeek」一些神话。

面前，蚂蚁 Ling 模子研发负责东谈目的志强在知乎上作出了复兴。

他发布长文《对于咱们抠 FLOPS 的一些点滴》，共享了他们一些大模子测验的履历和履历。

包括测验正确性对皆麻仓优快播、Router TP（Tensor Parallelism）bug 确立、测验踏实性等问题的惩处。

临了还复兴了外界对于他们老本筹算的误会，并暗示不论是在 GPU 照旧在国产加快卡上，LLM 的测验老本优化都是无终点的。

Ling 的测验经过一定进度地评释，在咱们作念的这些期间尽力上，国产加快卡的测验老本与 GPU 荒谬以致更低，同期不错保证 Loss 拘谨一模一样。

在不改动本心的基础上，量子位作念了如下整理在此共享给大众，但愿能给大众带来一定的启发。

（量子位已获原作家授权）

对于咱们抠 FLOPS 的一些点滴

本周启动看到有媒体关注咱们团队的模子测验效劳，其实月初咱们就在 GitHub 和 Hugging Face 上发布了 Ling 模子权重和期间求教（https://arxiv.org/abs/2503.05139），名字就叫「EVERY FLOP COUNTS」，对于使用非 NVIDIA 加快卡集群测验 Ling 300B MoE 大模子的一些期间细节。咱们的期间求教被外媒记者发现了，"出口转内销"地被关注到。其实咱们原本就准备在月底的微型期间沙龙上共享履历履历的，既然被关注到了，就来提前评释一下吧。

从开源来，回社区去

即使如最近大热的 DeepSeek，也受限于算力问题进行了许多精彩的优化，对于咱们一线研发东谈主员来说，克服环境的驱散等于责任。家喻户晓，和海外的大模子团队比拟，中国团队濒临了更多的异构加快卡的挑战，咱们并不是第一家濒临异构问题的公司，比如智源商讨院就发起了 FlagScale 形式，研发面向异构加快卡的测验框架。有了开源社区，咱们不错期骗同业们的前期探索手脚责任的基础。

雷同，咱们的试验效劳也回馈给社区，但愿不错匡助社区减少不消要的重迭服务。蚂蚁在客岁开源 DLRover 形式（https://github.com/intelligent-machine-learning/dlrover ），求教提到的轻量级取舍性追踪框架 XPUTimer 就集成在 DLRover 上，不错为不同算力平台上的大规模测验任务提供监控会诊功能。但愿这些对社区的回馈，不错给大众带来一些启发。

一些得益和履历履历

在写这份期间求教时，咱们但愿共享 Ling 研发经过的一些要道 insight。Insight 不错是 novelty story，也不错是 bitter lesson。这里和大众聊聊咱们得到的一些履历。手脚较早吃螃蟹的东谈主，共享这些履历并不是想吐槽，仅仅但愿不错匡助其他同业消亡一些问题，天然也但愿不错促进国产加快卡的更快熟悉。底下伸开聊一聊几个我印象深入的 bitter lesson。

测验正确性对皆

为了让大规模 MoE LLM 不错在多个算力平台上进行无缝切换测验，测验正确性对皆是必不可少又极其繁琐的一个经过。对皆有不同的方法，比如在不同平台测验都不错日常拘谨是一个方法，而算子精度、测验框架、loss 透顶对皆又是另外一个方法。"很傻很灵活"的咱们本着期间问题应该知其然又知其是以然的信念，定下了一个相配严格方法，基础算子（除恰当预期的精渡缺点）透顶对皆 + 散布式测验框架前后向筹算透顶对皆 + 大规模测验长跑 loss 各别低于 0.1%，天然这也换来了无数个彻夜 debug 的记起体验。

意念念的是，在作念正确性对皆的经过中，咱们同步也在作念对于 scaling law 的商讨。咱们发现，通过遐想一个合理的外推拟合时势，在不进行实在测验的情况下，一个尺寸较大（比如 20B、80B）的模子在持重测验较万古期（比如 2T token）后的 loss，不错被一系列 1B 以下的小尺寸模子的测验外推预料，其预料缺点低于 0.5%。这么看来，跨平台测验的 loss 各别低于 0.1% 其实是一个合理的条款。

在算子对皆上，咱们将不同平台的基础算子进行了透顶对皆竣事，比如 matmul、linear 等。

Router TP（Tensor Parallelism）bug 确立

抠逼

在框架上，FSDP 向 MindSpeed（Megatron）对皆引入 tensor parallelism 特质会导致一系列模子拘谨问题，尤其是在 MoE 关系的 router 部分相配严重。这里伸开讲一下咱们的责任。

在 router 的前向筹算上，由于 sp（sequence parallel）在 Megatron 中对 router 的输入进行了切分，导致其输入并不好意思满，因此在 router 关系 loss 筹算（包括 load_balance_loss 和 z_loss）时会特别使用 gather 操作将不同 sp rank 上的数据同步到一齐，以进行好意思满 batch 筹算。这个经过并莫得有利针对反向进行对应的 reduce 竣事，会导致回传梯度重迭，需要手动对 router 关系的 loss 总共进行放缩。值得厚爱的是该 bug 还是在 Megatron 0.7.0 版块确立；那时 MindSpeed 解救到 0.6.0 版块，因此需要进行特别 patch 确立。

在 router 的反向筹算上，Megatron 对 router 通过 gather 操作获得了好意思满的 logits，而 MindSpeed 在后续的 permute/unpermute 操作中需要强制使用 local logits，因此特别进行一次 scatter 操作来进行切分，出现了 loss 不敛性问题。经过排查，咱们发现是 scatter_to_sequence_parallel_region 在反向竣事中进行了一次 _gather_along_first_dim 操作导致梯度比日常梯度更大。最终咱们在每一次 scatter 操作之后添加了对应的 gradient_scale 竣事以保证梯度的正确性，从而满足 loss 拘谨的需求。

NormHead 迁徙

参考百川的测验履历，咱们也聘用了 NormHead 来保证测验的踏实（固然初志是为了保证测验踏实，关联词自后通过 scaling law 分析，咱们发现 NormHead 在 loss 上也会带来一些上风）。NormHead 从 FSDP 迁徙到多 D 并行的 MindSpeed/Megatron 上也遭遇了问题。

FSDP 上的参数在逻辑上是莫得被切分的，因此 NormHead 的竣事相配浅陋高效，通过 Torch 原生自带的 torch.nn.functional.normalize 即可完成对 lm_head.weight 方法化操作。在 MindSpeed/Megatron 中，由于触及到了多 D 并行，因此需要修改 NormHead 的竣事时势进行适配。最径直浅陋的决议等于连结 torch.nn.functional.normalize 的骨子筹算经过，将腹地拓荒上的 lm_head.weight 先进行方法化筹算，临了使用 reduce 对方法化后的 lm_head.weight 值进行同步。缺憾的是咱们发现这么竣事无法保证 loss 拘谨，分析其原因主如果由于在不同机器上进行数据同步聘用 Megatron.core.tensor_parallel.mappings._ReduceFromModelParallelRegion，而该决议莫得在反向传播经过中竣事对应的梯度同步，最终导致 loss 飞腾；于是咱们重写了一版 _ReduceFromModelParallelRegionForNormHead 并竣事了对应的反向以保证 loss 拘谨。

另一方面，国产加快卡的某些算子可能不解救 BF16 筹算，而 FP32 的算子筹算效劳远低于 BF16 算子，为了看管在多 D 并行中禁闭住模子的合座筹算，需要对 NormHead 性能进行优化。咱们遐想了基于 all2all 通讯的 NormHead 竣事以及 HeadNormCache 等决议，以在国产加快卡上达到更优的筹算效劳。

测验踏实性

与 GPU 比拟，国产加快卡在踏实性上如实存在不少问题，常常会遭遇由于机器不踏实带来的 loss 以及 grad 荒谬，从而激发尖刺，影响模子的拘谨经过。为了缓解这些问题，咱们遐想了两种不同的尖刺处理机制。

对于 loss 尖刺，咱们会把历史最近的一部分 loss 手脚参考，如果现时 loss 与参考的历史 loss 均值比拟有显豁的飞腾，咱们就会跳过这一步的测验径直启动下一步，或径直裁汰这一步的学习率来减少影响。这种时势在大无数情况下是有用的，不错很好地缓解测验不踏实问题。

但咱们在实验不雅察中发现，loss 尖刺处理机制并不行惩处扫数的测验不踏实问题，因为 loss 是模子测验经过的一个很宏不雅的推崇，模子的景色在 loss 产生尖刺之前可能还是出现了不踏实。Grad 会径直作用于模子参数，对其监控比拟于 loss 愈加马上，因此咱们也开发了 grad 尖刺处理机制。参考 loss 尖刺的竣事，咱们在自研的 ATorch 框架中对扫数的 _ParamAndGradBuffer 进行处理，从而竣事对模子 grad 的监控。如果 grad 出现荒谬就跳过这一步测验。通过 grad+loss 尖刺处理机制，不错自动处理大部分的 loss 荒谬。

老本的筹算

此次大众的一些误会也源于对老本筹算的方式，其实咱们在老本筹算上使用了学术界比较通行的筹算时势，这里也浅陋先容一下。

说明在不同平台上对 Ling-Plus 的实在测验纪录，咱们不错不雅察到某个平台在 K 张加快卡上抓续一段时期（比如一周）的 token 数，再说明期间求教表 1 上提到的不同加快卡的单元时期老本，就不错很浅陋地筹算出对应平台上测验单元 token 量（求教里以 1 万亿 token 为单元）的老本。

△表 1：AI 加快器特质与单元老本（估算）

事实上，不论是在 GPU 照旧在国产加快卡上，LLM 的测验老本优化都是无终点的。Ling 的测验经过一定进度地评释，在咱们作念的这些期间尽力上，国产加快卡上的测验老本与 GPU 荒谬以致更低，同期不错保证 loss 拘谨一模一样。

昔时的责任

Ling 模子的发布仅仅咱们责任的一个里程碑，后续咱们还会进一步雠校我方的责任。DeepSeek 为咱们对测验经济性的擢升带来了启发，DeepSeek 在测验中使用了 FP8 解释了这么的低精度浮点数是不错测验出来优秀的大模子的；雷同咱们昆季团队基于强化学习的 AReaL（https://github.com/inclusionAI/AReaL）也开源了，强化学习亦然通往 AGI 之路的遑急一环。咱们后续的更多责任也会链接开源在 inclusionAI org（https://huggingface.co/inclusionAI）里。

每个 AI 研发工程师都信服 AGI 必将到来。咱们信服 AGI 一定是普惠行家的，感谢大众的关注，期待昔时的责任也能受到抓续关注。

知乎相连：

https://zhuanlan.zhihu.com/p/1888526583813350974

一键三连「点赞」「转发」「戒备心」

接待在辩驳区留住你的意见！

— 完 —

速抢席位！中国 AIGC 产业峰会不雅众报名通谈已开启 � � ‍♀️

首批嘉宾曝光啦 � � 百度、无问芯穹、数势科技、生数科技、像素敞开等十数位 AI 领域创变者将皆聚峰会，让更多东谈主用上 AI、用好 AI，与 AI 一同加快成长～

4 月 16 日，就在北京，一齐来深度求索 AI 怎样用 � �

� � 一键星标 � �

科技前沿进展逐日见麻仓优快播

相关资讯

热点资讯

友情链接：

麻仓优快播 蚂蚁国产GPU测验大模子细节曝光！Ling模子研发负责东谈主复兴：对于咱们抠FLOPS的一些点滴

麻仓优快播蚂蚁国产GPU测验大模子细节曝光！Ling模子研发负责东谈主复兴：对于咱们抠FLOPS的一些点滴