推广 热搜： 行业设备机械教师系统经纪杯金参数蒸汽

Mamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍

日期：2024-06-08 caijiyuan 评论：0 移动：http://www.gawce.com/mobile/news/6381.html

核心提示：声明:本文来自于微信公众号新智元（ID:AI_era），作者:新智元，授权站长之家转载发布【新智元导读】在开源社区引起「海啸」的Ma

声明:本文来自于微信公众号新智元（ID:AI_era），作者:新智元，授权站长之家转载发布

【新智元导读】在开源社区引起「海啸」的Mamba架构，再次卷土重来!这次，Mamba-2顺利拿下ICML。通过统一SSM和注意力机制，Transformer和SSM直接成了「一家亲」，Mamba-2这是要一统江湖了?

年前，Mamba被顶会ICLR拒稿的消息曾引起轩然大波。

甚至有研究人员表示:如果这种工作都被拒了，那我们这些「小丑」要怎么办?

这次，新一代的Mamba-2卷土重来、再战顶会，顺利拿下了ICML2024!

仍是前作的两位大佬（换了个顺序），仍是熟悉的配方:

论文地址:https://arxiv.org/pdf/2405.21060

开源代码和模型权重:https://github.com/state-spaces/mamba

不同的是，作者在更高的视角上，统一了状态空间模型（SSM）和注意力机制(Attention)，也就是文章标题所说的「Transformers are SSMs」。

——这下咱们都是一家人了，不用动不动就「打生打死」了。

性能方面，Mamba-2采用了新的算法（SSD），比前代提速2-8倍，对比FlashAttention-2也不遑多让，在序列长度为2K时持平，之后便一路遥遥领先。

在Pile上使用300B token训练出的Mamba-2-2.7B，性能优于在同一数据集上训练的Mamba-2.8B、Pythia-2.8B，甚至是更大的Pythia-6.9B。

从理论上整合了SSM和Transformer，同等性能下，模型更小，消耗更低，速度更快。

更重要的是，能够利用GPU的硬件资源（矩阵乘法单元），以及针对Transformer的一系列优化。

——Mamba-2大有一统江湖之势。

1代Mamba，爆发式占领AI社区

事实上，关于1代Mamba的各种研究一直在爆发性地增长，arxiv已经被各种Mamba所占领，谷歌学术的引用量也达到了350多。

后续工作如雨后春笋一般冒出，包括视觉、基因组学、图表等的直接应用，以及回忆能力、上下文学习能力、形式语言表达能力等方面的研究。

作者兴奋地表示:「我们多年来一直在追求的高效序列模型研究路线，真正引起了机器学习社区的共鸣。」

唯一遗憾的是，Mamba遭到ICLR拒稿，所以关于Mamba到底有没有前途这个事也就被打上了问号。

现在，问题解决了，不但论文被接收了，而且还证明了Transformer和Mamba其实是一家人——

「你说我不行?那Transformer到底行不行?」

值得注意的是，之前很火的Vision Mamba以及另一篇关于Mamba的研究也杀入了ICML2024。

对于改进Mamba的初衷，作者表示，当前AI社区的大家都在努力解决Transformer的问题，尽管SSM的特性和效果都相当好，但却跟社区的努力方向不一致。

这次的Mamba-2可以把针对Transformer的优化都用上，不浪费大家的努力。

新架构一统江湖

在介绍新架构之前，小编先帮大家简单理一下背景。

状态空间模型SSM之所以如此令人着迷，是因为它们显得如此之「基础」。

比如，它们与序列模型的许多主要范式，都有着丰富的联系。

它们似乎抓住了连续、卷积和循环序列模型的本质，把所有这些元素都包含在了一个简单优雅的模型里。

不过，另一个主要的序列模型范式——注意力机制的变体，却更加无所不在。

然而SSM却总感觉和Attention是脱节的。

在这里，研究者们发出了「灵魂拷问」——SSM和注意力之间的概念联系是什么?有无可能将二者结合起来?

那就要从公式说起了。

状态空间模型SSM可以这么定义:

这是个微分方程，利用导数定义进行代换:

可以得到SSM的解:

这个东西就跟RNN一毛一样了:

所以可以认为SSM等价于RNN。

如果将RNN的递归结构展开，那么它又可以等价于卷积:

此时，便可以利用卷积的特性进行并行训练，而进行推理时又可以享受RNN带来的O（1）复杂度。

当然，好事不能让你全占了，这种结构仍然逃不过固有的梯度爆炸（或消失），以及难以胜任选择性复制和上下文学习等任务。

为此，Mamba在SSM的基础上加入了能够随输入变化的参数。

不过这样做的代价是失去了固定kernel带来的并行性，所以作者另辟蹊径，使用前缀和的方式来加速RNN的训练。

不过，从计算角度来看，Mamba在硬件效率上仍然远不如注意力机制。

原因在于，目前常用的GPU、TPU等加速器，是为矩阵乘法进行过专门优化的。

1代Mamba吃不到硬件矩阵运算单元的红利，尽管推理时有速度优势，但训练时问题就大了。

所以作者就想，我能不能把Mamba的计算重构成矩阵乘法呢?

于是，新一代的Mamba诞生了。

结构化状态空间对偶性:SSD

Mamba-2的核心，是结构化状态空间对偶性（State Space Duality，SSD）的概念:

1.SSD模型指的是一个特定的独立层，比如注意力层或状态空间模型（SSM），可以被整合到深度神经网络中;

2.SSD框架是一个用于推理该模型（以及更多理论连接）的通用框架;

3.SSD算法是一种比以前的SSM更高效地计算SSD层的算法。

SSD框架（红色，蓝色）:状态空间模型(即半分离矩阵)和结构化掩码注意力涵盖了大量高效的序列模型。它们的交集就是SSD模型(紫色)

原始的Mamba（或更准确地说，其核心「S6」层）实际上是一个具有对角结构的选择性状态空间模型(SSM)。

Mamba-2的SSD层只做了一个小改动:它进一步限制了对角矩阵

这是水淼·Destoon站群文章更新器的试用版本更新的文章，故有此标记(2024-06-08 09:15:06)

本文地址：http://www.gawce.com/news/6381.html 阁恬下 http://www.gawce.com/ , 查看更多

更多>同类行业资讯

0 条相关评论

新闻列表

企业新闻

推荐企业新闻

使用基本公司SiC碳化硅MOSFET打造全SiC光伏逆变器！

推荐图文

推荐行业资讯

点击排行

• 2024第30届中国（北京）国际美博会	• 突破重围！大健康展会参展新思维助你破局中医养
• 宁波37件美术作品入选第十四届全国美展	• AI技术与微短剧“强强联合”，开拓微短剧发展新
• 带薪休假，不用预约，景区走起	• 襄阳嗨空间文化娱乐有限公司违反《建设工程质量
• 娱乐：我，德云大先生	• 跨区域协同发展的体育实践——长三角体育一体化
• 养生传言别轻信，小心养生变毁身！	• 赛得健康养生小镇
• 全力支持复工复产切实加强市场监管河南省召开	• 向往的生活之娱乐之神
• 休闲旅游学院开展校园安全隐患排查工作	• 三下乡进行时【11】｜ “太平峪中传环保，秦岭
• 千岛湖中心湖区休闲艇（中心湖旅游码头）天气预	• 夏日晒背零成本养生方式成潮流，医生提醒注意健
• 中国公民中医养生保健素养42条	• 诸暨五泄镇的百年学堂，结合上现代科技，居然变
• 甘肃挖掘文旅多元业态创新设计提供游客多样选	• 【上海水晶荔枝娱乐文化有限公司招聘信息】
• 哈佛教授发文警告：我们现在就需要控制AI智能体	• 爱豆情绪价值：揭秘打造快乐人生的健康秘诀
• 铜陵市精准发力推动民宿产业高质量发展	• 2024（第二十三届）中国互联网大会在京开幕
• 美丽庭院事迹材料	• 畅通落地之路加快科技成果向现实生产力转化
• 娱乐动态新媒体数据分析报告怎么写	• 苏州新区有什么好玩的景点
• 暑期将迎旅游高峰	• 完美保健品课堂：“活力派养生”让追求健康更多
• “凉城”文旅这样热起来_旅游频道_中国青年网	• 阿普用亲身经历告诉你：互联网是个什么东西？它
• 【健康养生】夏季真丝衣物如何养护	• 从北京去清东陵.蓟州盘山.独乐寺休闲二日游，天
• 【来自内蒙古的夏季之邀】夏季火热开街，期待与	• 广州艾薇尔美业培训中心怎么样？办学优势如何？
• 2024中国互联网大会在京开幕：互联三十载智汇	• 白旅游鞋女秋冬休闲
• 人工智能取代人类需要5个阶段，现在即将到达第	• 北京征集第二批乡村振兴农业科技储备项目，涉及
• “清凉一夏天　放歌渭河源”渭水文化旅游季活动	• 建三江农文商旅，全景、全业、全域
• 我市发布《园林绿化生态系统监测网络数据处理技	• 浙江银润休闲旅游开发有限公司
• 南阳娱乐场所KTV申请文化许可证需要什材料	• 创卫进行时丨绿化更新在行动植绿护绿焕新颜
• 美业生活美容医学美容营销销售引流客户业绩增长	• 厦门纹绣技术培训
• 做美容与不做美容的差距！	• HP公交车灌溉系统十分流畅：从创新设计到环保节
• 车记｜餐饮店顾客体验优化：从细节做起	• 东方赫本瘦身加盟
• 原创别害羞，为了身体健康不妨看看	• 预订确认通知（电子邮件和／或短信）是预订交易
• 四合院：从帮厨到餐饮大亨	• 贵阳市残疾人联合会
• 浏阳市文化旅游广电体育局关于注销《娱乐经营许	• 上海光博士医疗
• 娱乐：让你拍恋综，你气疯白露！	• 【天津喜乐会文化娱乐馆招聘信息】
• 绿色环保建材	• 2024年第65届中国国际美博会（9月4-6日广州·琶
• “品牌强企，聚势增效——美业新质规划研讨会”	• 月流水过亿后再出续作，网易想做的“自有IP
• 到家美业系统开发平台源码（APP、源码、H5）	• 食品检验员工资
• 2024年保护环境演讲稿精选34篇	• 合肥美甲培训
• 坡跟休闲旅游单鞋	• 然健环球开展“美丽中国·绿色希望工程——环保
• 中国电力杂志	• 哪些是2024年影视娱乐概念股？都在这了！（7月3
• 器美颜仪	• 漯河市艾尚化妆美甲纹绣职业培训学校
• 上海美丽之约-精品课程COURSE全部课程＞＞	• 3D缓存全新设计！AMD Zen5锐龙9000x3D将完
• 2024年保护环境演讲稿	• 【调研】福建省林业局领导赴漳州、龙岩调研造林
• 娱乐：文化输出国外，成全球巨星	• 2024年环保倡议书（精选35篇）
• 创业板游戏股股票一览,代码查询(7／5)	• 国信证券：互联网板块筑底确认推荐配置竞争格
• 黑龙江省文化娱乐经营活动管理规定	• 苏州皮肤管理培训学校
• 3D缓存全新设计！AMD Zen5锐龙9000x3D将完	• 老师推荐：6、轻松搞定牛顿定律（从入门到提高
• 95后平均在职7个月就选择辞职报告引发网友热议	• 暴雨后女子捡回40斤重大鱼：准备回家做剁椒鱼头
• iPhone用户注意！江苏一男子接FaceTime被骗超10	• 行业首批！小马智行、文远知行开启往返大兴机场
• 市委理论学习中心组举行专题学习会王旭主持并	• Midjourney角色一致性功能使用方法教程
• 桃山区召开深化能力作风建设领导小组会议	• 报志愿用得上！全国高校名单、本科专业目录一键
• 暴跌超27%！这个618智能投影仪熄火了四大原因	• 惠农网客户端下载地址[隐私政策]
• 努比亚新机开启预热！搭载骁龙8 Gen3领先版：7	• AI芯片成新一代电老虎：未来五年消耗全球1.5%以
• 红米最强性能！王腾首晒Redmi K70至尊版真机包	• 3A大作不到一杯奶茶钱？Steam暑促白给游戏盘点