首页

首页
你现在的位置:
数据>正文

全球百事通!GPT-4 由 8 个 MoE 模型组成,真的吗?

2023-06-27 00:22:53    来源:商业新知网


【资料图】

让大家没想到的是,被传的神乎其神的GPT-4依旧是大力出奇迹的产物。回到ensemble的老路上去了,OpenAI一直在画的AGI的大饼感觉又离我们远了。

黑客 George Hotz 在一个播客中透露,GPT-4 是由 8 个 2200 亿参数的 MoE 模型组成的,每个模型都针对不同的数据和任务分布进行了训练,然后通过一些小技巧将它们混合起来。他还说,这样做是因为单个模型的参数规模已经达到了极限,而且训练时间越长效果越差,所以他们采用了多模型集成的方法来提高性能。他认为,OpenAI 对此保密的原因是不想让别人知道他们的模型并不是那么先进,只要花更多的钱就能复制。

这个说法得到了 PyTorch 创始人 Soumith Chintala 的认可2,他表示自己也听过类似的传闻,但只有 George Hotz 在公开场合说出来了。不过,也有人对这个说法表示怀疑或质疑134,认为这样的模型推理成本太高,而且没有充分利用 GPT-4 的潜力。目前,OpenAI 还没有对这个爆料做出任何回应或证实。

这件事情很可能是真的,理由如下:

已知的Prior:

1.多个信源认为GPT4比GPT3.5参数量大至少一个数量级,也就是1.7万亿以上。

2. OpenAI去年六月发表过技术报告说他们训练LLM用了MoE.

现在的观测:

有人说GPT4是一个1.76万亿参数的MoE

网友得知秘诀后,打算自己也要训练一个LLaMA集合体与GPT-4竞争。

外汇前线版权与免责声明:
1、外汇前线所有内容的版权均属于作者或页面内声明的版权人。未经外汇前线的书面许可, 任何其他个人或组织均不得以任何形式将河南企业网的各项资源转载、复制、编辑或发布使用于其他任何场合;不得把其中任何形式的资讯散发给其他方, 不可把这些信息在其他的服务器或文档中作镜像复制或保存;不得修改或再使用外汇前线的任何资源。若有意转载本站信息资料, 必需取得外汇前线书面授权。否则将追究其法律责任。
2、已经本网授权使用作品的,应在授权范围内使用,并注明“来源:外汇前线”。违反上述声明者,本网将追究其相关法律责任。
3、凡本网注明“来源:XXX(非外汇前线)”的作品,均转载自其它媒体,转载目的在于传递更多信息, 并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布, 可与本网联系,本网视情况可立即将其撤除。

相关内容

图片欣赏
频道推荐
内容推荐

  Copyright @ 2001-2020 www.whqxw.com All Rights Reserved 外汇前线 版权所有

  网站所登新闻、资讯等内容, 均为相关单位具有著作权,转载注明出处

联系邮箱:553 138 779@qq.com