【环球快播报】比Transformer快4成！Meta发布全新Megabyte模型，解决算力损耗硬伤

亚设网 2023-05-30 21:37:58

Transformer最近几年已然成为大模型的标配，而Meta团队开发的一款Megabyte模型声称能解决Transformer的硬伤，速度还要快四成。

编者按：本文来自微信公众号新智元（ID：AI_era），编辑：Joey，创业邦经授权转载，头图来源摄图网

Transformer无疑是过去几年内机器学习领域最流行的模型。

(资料图片)

自2017年在论文「Attention is All You Need」中提出之后，这个新的网络结构，刷爆了各大翻译任务，同时创造了多项新的记录。

但Transformer在处理长字节序列时有个硬伤，就是算力损耗严重，而Meta的研究人员的最新成果则可以很好地解决这一缺陷。

他们推出了一种全新的模型架构，能跨多种格式生成超过100万个token，并超越GPT-4等模型背后的现有 Transformer架构的功能。

这个模型被称为「兆字节」（Megabyte），是一种多尺度解码器架构（Multi-scale Decoder Architecture），可以对超过一百万字节的序列进行端到端可微分建模。

论文链接：https://arxiv.org/abs/2305.07185

Megabyte为什么比Transformer强，就得先看看Transformer的不足之处在哪。

Transformer的不足

迄今为止几类高性能的生成式AI模型，如OpenAI的GPT-4、Google的Bard，都是基于Transformer架构的模型。

但Meta的研究团队认为，流行的Transformer架构可能正达到其阈值，其中主要理由是Transformer设计中固有的两个重要缺陷：

- 随着输入和输出字节长度的增加，自注意力的成本也迅速增加，如输入的音乐、图像或视频文件通常包含数兆字节，然而大型解码器 (LLM)通常只使用几千个上下文标记

- 前馈网络通过一系列数学运算和转换帮助语言模型理解和处理单词，但在每个位置的基础上难以实现可扩展性,这些网络独立地对字符组或位置进行操作，从而导致大量的计算开销

Megabyte强在哪

相比Transformer，Megabyte模型展示了一种独特的不同架构，将输入和输出序列划分为patch而不是单个token。

如下图，在每个patch中，本地AI模型生成结果，而全局模型管理和协调所有patch的最终输出。

首先，字节序列被分割成固定大小的patch，大致类似于token，这个模型由三部分组成：

(1) patch嵌入器：通过无损地连接每个字节的嵌入来简单地编码patch

(2) 一个全局模型：一个输入和输出patch表示的大型自回归变换器

(3) 一个本地模型：一个预测patch中字节的小型自回归模型

研究人员观察到，对于多数任务而言字节预测都相对容易（如完成给定前几个字符的单词），这意味着每个字节的大型网络是不必要的，并且可以使用更小的模型进行内部预测。

这种方法解决了当今AI模型中普遍存在的可扩展性挑战，Megabyte 模型的patch系统允许单个前馈网络在包含多个token的patch上运行，从而有效解决了自注意力缩放问题。

其中，Megabyte架构对长序列建模的Transformer进行了三项主要改进：

- 二次自注意力（Sub-quadratic self-attention）

大多数关于长序列模型的工作都集中在减轻自注意力的二次成本上，而Megabyte将长序列分解为两个较短的序列，即使对于长序列也仍然易于处理。

- patch前馈层（Per-patch feedforward layers）

在GPT-3大小的模型中，超过98%的FLOPS用于计算位置前馈层，Megabyte每个patch使用大型前馈层，以相同的成本实现更大、性能更强的模型。在patch大小为P的情况下，基线转换器将使用具有m个参数的相同前馈层P次，兆字节可以以相同的成本使用具有mP个参数的层一次。

- 解码中的并行性（Parallelism in Decoding）

Transformers必须在生成期间串行执行所有计算，因为每个时间步的输入是前一个时间步的输出，通过并行生成patch的表示，Megabyte允许在生成过程中实现更大的并行性。

例如，具有1.5B参数的Megabyte模型生成序列的速度比标准的350MTransformer快40%，同时在使用相同的计算量进行训练时还能改善困惑度。

Megabyte远远优于其他模型，并提供与在子词上训练的 sota 模型竞争的结果

相比之下，OpenAI 的GPT-4有32,000个token的限制，而Anthropic的Claude有100,000个token的限制。

此外，在运算效率方面，在固定模型大小和序列长度范围内，Megabyte比同等大小的Transformers和Linear Transformers使用更少的token，允许以相同的计算成本使用更大的模型。

总之，这些改进使我们能够在相同的计算预算下训练更大、性能更好的模型，扩展到非常长的序列，并提高部署期间的生成速度。

未来将会如何

随着AI军备竞赛进行地如火如荼，模型性能越来越强，参数也越来越高。

虽然GPT-3.5在175B个参数上进行了训练，但有人猜测功能更强大的GPT-4在1万亿个参数上进行了训练。

OpenAI的CEO Sam Altman最近也建议转变战略，他表示公司正在考虑舍弃对庞大模型的训练，而专注于其他性能的优化。

他将AI模型的未来等同于iPhone芯片，而大多数消费者对原始技术规格一无所知。

Meta的研究人员相信他们的创新架构来得正是时候，但也承认还有其他优化途径。

例如采用修补技术的更高效的编码器模型、将序列分解为更小块的解码模型以及将序列预处理为压缩token等，并且可以扩展现有Transformer架构的能力以构建新一代模型。

前特斯拉AI总监Andrej Karpathy也在这篇论文中发表了看法，他在推特上写道：

这是非常有希望的，每个人都应该希望我们能在大模型中扔掉标记化，也不需要那些过长字节的序列。

参考资料：

https://www.artisana.ai/articles/meta-ai-unleashes-megabyte-a-revolutionary-scalable-model-architecture

X 关闭

相关文章

【环球快播报】比Transformer快4成！Meta发布全新Megabyte模型，解决算力损耗硬伤

【环球快播报】比Transformer快4成！Meta发布全新Megabyte模型，解决算力损耗硬伤

05-30

丈夫举报妻子酒驾为何丈夫要举报妻子呢

丈夫举报妻子酒驾为何丈夫要举报妻子呢

05-30

2023年武汉民族舞剧红楼梦票价多少钱？附购票入口

2023年武汉民族舞剧红楼梦票价多少钱？附购票入口

05-30

如何查看苹果手机是不是翻新机器（如何查询苹果手机是不是翻新机）

如何查看苹果手机是不是翻新机器（如何查询苹果手机是不是翻新机）

05-30

全球播报:ca3635航班动态 ca3635

全球播报:ca3635航班动态 ca3635

05-30

上海华瑞银行：取消发行“23上海华瑞银行CD418”

上海华瑞银行：取消发行“23上海华瑞银行CD418”

05-30

天津17.47亿再挂牌4宗地块 2宗涉宅地均设置最高限价

天津17.47亿再挂牌4宗地块 2宗涉宅地均设置最高限价

05-30

乌克兰还手了！出动数十架自杀式无人机，“远程精确打击”莫斯科

乌克兰还手了！出动数十架自杀式无人机，“远程精确打击”莫斯科

05-30

朝饮木兰之坠露夕餐秋菊之落英什么意思（落英纷纷什么意思）当前快看

朝饮木兰之坠露夕餐秋菊之落英什么意思（落英纷纷什么意思）当前快看

05-30

世界热推荐：熄火，上海豪宅云锦东方暂停摇号

世界热推荐：熄火，上海豪宅云锦东方暂停摇号

05-30

环球简讯:交会对接完成后神十六航天员如何进入空间站？一起揭秘

环球简讯:交会对接完成后神十六航天员如何进入空间站？一起揭秘

05-30

众源新材：电池包托盘业务目前产品价格较为稳定

众源新材：电池包托盘业务目前产品价格较为稳定

05-30

朝仓纯一的结局（朝仓纯一）|当前速递

朝仓纯一的结局（朝仓纯一）|当前速递

05-30

团中央书记处第一书记贺军科已任中国科协党组书记

团中央书记处第一书记贺军科已任中国科协党组书记

05-30

北京职业学校哪些方面纳入考核？全球新视野

北京职业学校哪些方面纳入考核？全球新视野

05-30

大学英语专业推荐词典（大学英语词典简介介绍）_每日视讯

大学英语专业推荐词典（大学英语词典简介介绍）_每日视讯

05-30

恩施市逸夫小学105名少年儿童光荣加入中国少年先锋队|全球观点

恩施市逸夫小学105名少年儿童光荣加入中国少年先锋队|全球观点

05-30

澳门机场巴士时间表（澳门机场免费巴士）|每日热讯

澳门机场巴士时间表（澳门机场免费巴士）|每日热讯

05-30

衡谷12号极早熟谷子新品种突破传统种植区域

衡谷12号极早熟谷子新品种突破传统种植区域

05-30

每日时讯!云南省宁蒗彝族自治县发布森林火险黄色预警

每日时讯!云南省宁蒗彝族自治县发布森林火险黄色预警

05-30

【环球播资讯】6月1日起，内蒙古实施婚姻登记“跨省通办”

【环球播资讯】6月1日起，内蒙古实施婚姻登记“跨省通办”

05-30

中国信通院：编制纸鸢开放人工智能模型许可证促大模型落地

中国信通院：编制纸鸢开放人工智能模型许可证促大模型落地

05-30

全球看热讯：简单绘画教程卡通人物_简单绘画

全球看热讯：简单绘画教程卡通人物_简单绘画

05-30

汉源尚品子和口腔医生技术如何？擅长项目推荐~

汉源尚品子和口腔医生技术如何？擅长项目推荐~

05-30

安东尼·莫罗甘-全球快播

安东尼·莫罗甘-全球快播

05-30

【环球时快讯】雅诗兰黛红石榴水适合年龄段_雅诗兰黛红石榴水适合什么年龄简介介绍

【环球时快讯】雅诗兰黛红石榴水适合年龄段_雅诗兰黛红石榴水适合什么年龄简介介绍

05-30

时代光影百部川扬｜《海丝特电锭维修班：致敬匠心》全球快播

时代光影百部川扬｜《海丝特电锭维修班：致敬匠心》全球快播

05-30

一熊孩子钻进娃娃机被困，网友：这下真抓娃娃了

一熊孩子钻进娃娃机被困，网友：这下真抓娃娃了

05-30

中国人民银行副行长张青松出席东亚及太平洋中央银行行长会议组织第64届副手会暨第33届货币与金融稳定委员会会议

中国人民银行副行长张青松出席东亚及太平洋中央银行行长会议组织第64届副手会暨第33届货币与金融稳定委员会会议

05-30

专家：积极应对生成式AI给金融业带来的挑战

专家：积极应对生成式AI给金融业带来的挑战

05-30

格灵深瞳（688207）5月29日主力资金净卖出684.79万元

格灵深瞳（688207）5月29日主力资金净卖出684.79万元

05-30

三年级下册数学课本冀教版（三年级下册数学课本）|全球今头条

三年级下册数学课本冀教版（三年级下册数学课本）|全球今头条

05-30

【Something Blue】SSR大和赤骥（根性）支援卡小故事翻译_每日速递

【Something Blue】SSR大和赤骥（根性）支援卡小故事翻译_每日速递

05-30

朗进科技董秘回复：谢谢您对公司的关注和建议！公司在公司官网投资者关系板块公示证券部联系信息和已披露的公告

朗进科技董秘回复：谢谢您对公司的关注和建议！公司在公司官网投资者关系板块公示证券部联系信息和已披露的公告

05-30

全球观点：华夏银行（600015）：5月29日北向资金增持293.87万股

全球观点：华夏银行（600015）：5月29日北向资金增持293.87万股

05-30

皓丽助力中国联通构建全场景化未来数字生活、数字办公空间_天天热门

皓丽助力中国联通构建全场景化未来数字生活、数字办公空间_天天热门

05-30

每日速递：河南部分地区因连续降雨致成熟麦子在地里发芽？当地农业农村局：属极个别现象

每日速递：河南部分地区因连续降雨致成熟麦子在地里发芽？当地农业农村局：属极个别现象

05-30

女尊男生子虐心女主渣_女尊男卑男生子虐身

女尊男生子虐心女主渣_女尊男卑男生子虐身

05-30

山下智久身材_山下智久吧热头条

山下智久身材_山下智久吧热头条

05-30

C919商业首飞，上海到成都票价不到1000元！订单总价值已超7000亿_环球热消息

C919商业首飞，上海到成都票价不到1000元！订单总价值已超7000亿_环球热消息

05-30

被西班牙媒体追问是否会去皇马，姆巴佩笑而不答

被西班牙媒体追问是否会去皇马，姆巴佩笑而不答

05-30

潮评丨2名教师不幸溺亡究竟谁的责任该有个答案了

潮评丨2名教师不幸溺亡究竟谁的责任该有个答案了

05-30

天天微资讯！世界史上奥斯曼帝国存在6世纪之久，最终导致解体的原因是什么？

天天微资讯！世界史上奥斯曼帝国存在6世纪之久，最终导致解体的原因是什么？

05-29

天天即时看！2023新郑今天限行尾号是多少

天天即时看！2023新郑今天限行尾号是多少

05-29

5月29日晚间要闻盘点：工信部将把脑机接口作为培育未来产业发展的重要方向

5月29日晚间要闻盘点：工信部将把脑机接口作为培育未来产业发展的重要方向

05-29

生态环境部：2022年全国生态环境质量改善

生态环境部：2022年全国生态环境质量改善

05-29

全球观热点：曲塘村（关于曲塘村介绍）

全球观热点：曲塘村（关于曲塘村介绍）

05-29

神舟十六号对接在天宫哪？特派记者详解天天观天下

神舟十六号对接在天宫哪？特派记者详解天天观天下

05-29

东疆观日出吃住行有保障今日热搜

东疆观日出吃住行有保障今日热搜

05-29

浚县：打造一流营商环境创优不停步服务再升级

浚县：打造一流营商环境创优不停步服务再升级

05-29

最资讯丨天风证券：房地产行业短期偿债压力几何？

最资讯丨天风证券：房地产行业短期偿债压力几何？

05-29

观天下！海上石油开发再添利器！万吨海上油气平台来了

观天下！海上石油开发再添利器！万吨海上油气平台来了

05-29

守护者初春饰利当前短讯

守护者初春饰利当前短讯

05-29

中宏保险怎么样视频_中宏保险怎么样

中宏保险怎么样视频_中宏保险怎么样

05-29

异动快报：东方通信（600776）5月29日11点12分触及涨停板|热点聚焦

异动快报：东方通信（600776）5月29日11点12分触及涨停板|热点聚焦

05-29

全球报道:人民日报社陕西分社公开招聘工作人员公告

全球报道:人民日报社陕西分社公开招聘工作人员公告

05-29

2023吉祥文化金银币价格表（2023年05月29日）

2023吉祥文化金银币价格表（2023年05月29日）

05-29

来一份亲手做的大希地整切牛排，吃出生活的仪式感

来一份亲手做的大希地整切牛排，吃出生活的仪式感

05-29

扬企助力国产大飞机C919商业首飞成功-环球头条

扬企助力国产大飞机C919商业首飞成功-环球头条

05-29

名企参访｜走进海淀城市大脑指挥中心

名企参访｜走进海淀城市大脑指挥中心

05-29

AI孙燕姿爆火，谁先坐不住了？

AI孙燕姿爆火，谁先坐不住了？

05-29

环球速递！福特首席执行官认为 Mega EV 电池和远距离并不重要

环球速递！福特首席执行官认为 Mega EV 电池和远距离并不重要

05-29

polarized太阳镜贵吗_polarized|天天百事通

polarized太阳镜贵吗_polarized|天天百事通

05-29

汇丰控股(00005)5月22日斥资1454.8万英镑回购235.65万股

汇丰控股(00005)5月22日斥资1454.8万英镑回购235.65万股

05-29

全球观速讯丨热点追踪 | 新资产利润靠补贴难撑高估值

全球观速讯丨热点追踪 | 新资产利润靠补贴难撑高估值

05-29

迷情逆恋怎么看（迷情逆恋）_每日聚焦

迷情逆恋怎么看（迷情逆恋）_每日聚焦

05-29

2023年“金山杯”云南省大学生计算机设计大赛举行_天天观焦点

2023年“金山杯”云南省大学生计算机设计大赛举行_天天观焦点

05-29

专访王小慧1|因为AI可以进行艺术创作，艺术家更应当主导它的价值观精选

专访王小慧1|因为AI可以进行艺术创作，艺术家更应当主导它的价值观精选

05-29

【世界独家】1澳元换人民币多少今天_1澳元等于多少人民币元

【世界独家】1澳元换人民币多少今天_1澳元等于多少人民币元

05-29

全球观天下！一元三次方程根与系数的关系公式_根与系数的关系公式

全球观天下！一元三次方程根与系数的关系公式_根与系数的关系公式

05-28

常熟市7个老旧小区改造全面启动市政工程施工

常熟市7个老旧小区改造全面启动市政工程施工

05-28

修复生态

修复生态

05-28

虽败犹荣！翁泓阳1比2负于普兰诺伊，遗憾夺得2023大马大师赛亚军

虽败犹荣！翁泓阳1比2负于普兰诺伊，遗憾夺得2023大马大师赛亚军

05-28

曲莹璞：秉持开放心态坚定推进科技国际合作

曲莹璞：秉持开放心态坚定推进科技国际合作

05-28

楼市的负面新闻，竟然越来越多了？

楼市的负面新闻，竟然越来越多了？

05-28

当前热点-2023全球开源技术峰会在沪举办

当前热点-2023全球开源技术峰会在沪举办

05-28

山东滨州自考时间2023年10月具体时间：10月28日至29日

山东滨州自考时间2023年10月具体时间：10月28日至29日

05-28

快资讯丨科目三补考费缴费流程（科目三补考间隔时间）

快资讯丨科目三补考费缴费流程（科目三补考间隔时间）

05-28

买回来的鲜人参怎么保存_人参怎么保存今日快讯

买回来的鲜人参怎么保存_人参怎么保存今日快讯

05-28

全球今日讯！C919今天开启首次商业飞行，目的地北京

全球今日讯！C919今天开启首次商业飞行，目的地北京

05-28

环球新动态：北华大学是几本?全国排名第几?（北华大学是几本）

环球新动态：北华大学是几本?全国排名第几?（北华大学是几本）

05-28

【世界独家】闷热、暴雨都来了，南方大部体感温度可达40℃

【世界独家】闷热、暴雨都来了，南方大部体感温度可达40℃

05-28

环球最新：卧龙区财政局：“代理妈妈”送温暖真情关爱伴成长

环球最新：卧龙区财政局：“代理妈妈”送温暖真情关爱伴成长

05-28

环球热推荐：iPhone 15 Pro Max参数曝光 14PM同款镜头配3nm芯片

环球热推荐：iPhone 15 Pro Max参数曝光 14PM同款镜头配3nm芯片

05-28

【焦点热闻】6分钟看国产大飞机C919十六年成长全记录

【焦点热闻】6分钟看国产大飞机C919十六年成长全记录

05-28

【环球热闻】山西，又一次惊艳全国

【环球热闻】山西，又一次惊艳全国

05-28

每日消息!不要过度聚焦高诗岩，山东男篮要守信，做到兼顾成绩和年轻化很难

每日消息!不要过度聚焦高诗岩，山东男篮要守信，做到兼顾成绩和年轻化很难

05-28

共建共治共享“花园社区”

共建共治共享“花园社区”

05-28

拘留烧散煤者现状_男子卖散煤被拘留-视焦点讯

拘留烧散煤者现状_男子卖散煤被拘留-视焦点讯

05-28

天天通讯！广州举办首届台湾青年岭南文化讲解员大赛

天天通讯！广州举办首届台湾青年岭南文化讲解员大赛

05-28

麻将秘籍口诀_扫雷秘籍口诀_焦点播报

麻将秘籍口诀_扫雷秘籍口诀_焦点播报

05-27

马蒂斯大型个展将于暑期在京启幕-世界热资讯

马蒂斯大型个展将于暑期在京启幕-世界热资讯

05-27

广域铭岛出席ACS2023第七届中国汽车数字科技峰会

广域铭岛出席ACS2023第七届中国汽车数字科技峰会

05-27

2012虚拟机安装web服务器_虚拟机server2012服务器怎么添加桌面图标当前播报

2012虚拟机安装web服务器_虚拟机server2012服务器怎么添加桌面图标当前播报

05-27

世界聚焦：开通手机银行需要去柜台办理吗_开通手机银行需要去柜台

世界聚焦：开通手机银行需要去柜台办理吗_开通手机银行需要去柜台

05-27

全球时讯：惠农网CEO申斌出席2023数博会，分享农业数实相融成功经验

全球时讯：惠农网CEO申斌出席2023数博会，分享农业数实相融成功经验

05-27

北京互联网法院：未成年人网络消费集中于休闲娱乐涉诉最小当事人仅6岁

北京互联网法院：未成年人网络消费集中于休闲娱乐涉诉最小当事人仅6岁

05-27

中“关”察｜大师“钱学森”来到了中关村论坛还发表了对元宇宙的观点

中“关”察｜大师“钱学森”来到了中关村论坛还发表了对元宇宙的观点

05-27

全球热点！解救吾先生原型事件_这里有详细的介绍说明

全球热点！解救吾先生原型事件_这里有详细的介绍说明

05-27

共同编织未成年人“保护网” 第七届儿童保护高峰会议在郑召开当前报道

共同编织未成年人“保护网” 第七届儿童保护高峰会议在郑召开当前报道

05-27

京津冀医药网版权所有Copyright © 2023 All Rights Reserved. 备案号：京ICP备2022022245号-12 联系邮箱：434 922 62 @qq.com