Mamba 搀和架构视频模子来了橘梨纱全集,不再对视频 token 进行压缩——
而是通过改动模子架构联想的形势擢升模子在磨练及推理预填充阶段措置视频 token 的后果。
滑铁卢大学陈灯谜团队与多伦多大学、零一万物、向量学院以及 M-A-P 的计划东说念主员建议了一种新的 Mamba-Transformer 搀和模子 Vamba。
通过大都践诺考证,计划团队发现 Vamba 在同等硬件要求下可措置的视频帧数较传统 Transformer 架构擢升 4 倍,磨练内存奢华贬低 50% 以上,况兼可扫尾单步磨练速率的翻倍。
同期,该行径无缺保留了原始视频的时空特征,幸免传统行径因降采样或池化操作导致的要津动作或场景的信息丢失。
在多个长视频的评价法度上,Vamba 保捏了高准确率和出色的性能,尤其在 LVBench 长视频相识基准上相较先前的高效长视频相识模子达到了约 4.3% 的性能擢升。团队现已开源 Vamba 模子的代码、模子权重以及磨练、推理剧本供计划社区进一步探索与哄骗。
中枢行径
当今流行的多模态大说话模子多使用 Transformer 算作模子的基本结构,其中的因果耀主见机制联系于输入的 token 序列长度存在二次时分 / 空间复杂度关系。
在长视频理罢免务中,多模态大模子一般会将视频回荡为一段极长的 token 序列,因此这些模子往往需要崇高的磨练或推理本钱。例如来说,一种较为流行的视频编码形势为使用 CLIP 巧合 SigLIP 编码器将视频的每帧和谐为约 196 个 token。
基于这种编码形势,一个 512 帧的视频输入将会和谐为约 10 万个视频 token,从而变成极高的磨练或推理复杂度。现存行径在措置这个问题时,免费视频往往接纳压缩视频 token 数目的模子联想,即通过不同的压缩机制团结或删除一些非必要的视频 token 并镌汰视频 token 序列长度,从而贬低多模态模子在长视频理罢免务上的资源奢华。
尽管关联计划也曾取得了一定的发扬,这些高效的长视频相识模子仍然存在一个共同的问题,即过度的视频 token 序列压缩可能会变成一定进度的信息赔本。这使稳健今的高效长视频相识模子在性能方面仍然与最顶级的模子存在一定差距。
Vamba 的中枢联想念念路是将原来作用于扫数视频 + 文本序列的运算本钱崇高的因果自耀主见运算操作认识为两个更为高效且协同操作的筹算组件橘梨纱全集。
(1)在措置笔墨 token 的经由中,通过引入交叉耀主见机制使笔墨 token 取得视频 token 的信息。此类操作的筹算支出比较将笔墨与视频同期经由因果耀主见模块措置更为可控,同期确保文本语义与视觉信息的高效对都。
谁有成人网址(2)针对海量的视频 token,接纳基于情景空间模子(SSM)的 Mamba-2 模块进行序列建模。该模块通过选用性扫描机制,在保捏了更新视频 token 序列时不错检索全局序列信息的同期,将筹算复杂度从 Transformer 的二次复杂度降至线性复杂度,从而冲突了长视频序列的措置瓶颈。
如图所示,关于笔墨 token 输入,Vamba 使用了因果自耀主见机制和交叉耀主见机制同期措置笔墨 token,从而省去了视频 token 在因果耀主见模块中所需要的筹算本钱。在此基础上,Vamba 使用 Mamba-2 模块措置视频 token 序列,从而既保捏了对视频序列的信息更新又将该操作所需要的复杂度规定在了线性边界。
计划团队通过不同帧数的视频输入,对 Vamba 与 Transformer 模子在磨练与推理中的筹算本钱进行了比较。对比发现 Vamba 在长视频 / 高帧数输入的情景下(128 帧及以上的视频输入),比较 Transformer 类模子达到了 50% 以上的运转时分与显存需求下落。同期,Vamba 不错准确地面容视频实质,把柄用户输入的问题对视频进行分析,并作出相应的回答。
转头
本文先容了 Vamba 模子,一种专为高效相识超长视频联想的 Mamba-Transformer 搀和模子。
该行径通过集成面向文本 token 的交叉耀主见机制与面向视频 token 的 Mamba-2 模块更新计策,在权臣贬低筹算复杂度与显存占用的同期,扫尾了对长、中、短视频理罢免务的性能擢升。基于 LVBench 等数据集的大都践诺评估标明,Vamba 在长视频理罢免务中以 4.3% 的权臣上风高出了现存的高效长视频相识模子,并在多个散播各个视频平方区间的基准测试中展现出了不凡的竞争力。
论文地址:https://arxiv.org/abs/2503.11579
名目主页:https://tiger-ai-lab.github.io/Vamba/
代码仓库:https://github.com/TIGER-AI-Lab/Vamba
模子权重:https://huggingface.co/TIGER-Lab/Vamba-Qwen2-VL-7B
一键三连「点赞」「转发」「防范心」
宽待在驳倒区留住你的主张!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿实质
附上论文 / 名目主页聚合,以及磋商形势哦
咱们会(尽量)实时申报你
� � 点亮星标 � �
科技前沿发扬逐日见橘梨纱全集