MosaicML 推出 300 亿参数模型，训练成本 70 万

2023-06-25 08:18:58 来源 : OSCHINA

(资料图)

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B，单从参数来看，这个模型具有 300 亿参数，放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头，有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示，MPT-30B 的训练成本为 70 万美元，远低于训练 GPT-3 所需的数千万美元。此外，MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低，体积较小，它也可以更快速地被训练，并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型，可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室，相比以往，这使得每 GPU 的吞吐量增加了 2.4 倍以上，带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字，300 亿参数为什么这么特殊呢？MosaicML 首席科学家 Frankle 则解释道，首先 300 亿参数能够确保它可以在本地硬件上轻松运行，同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段，通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外，MosaicML 还专注于提高数据质量，以提高模型性能。他们目前正在开发工具，帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步，接下来他们将以降低成本为前提，推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型，开发者还可以在自己的硬件上用自己的数据对模型进行微调。

关键词：

MosaicML 推出 300 亿参数模型，训练成本 70 万
2023-06-25
全球报道:沙西线会进行扩容改造吗？最新回应来了
2023-06-25
最新提示！泰山景区23日夜间时段门票预约已满
2023-06-25
ITU无线电部门通过6G框架和总体目标建议书
2023-06-25
国铁集团：全国铁路今日预计发送旅客1515万人次
2023-06-25
鲩鱼是什么鱼一般超市能买到吗环球聚焦
2023-06-25
观察：在银行存定期存款，建议牢记“5不要”，以免损失本息
2023-06-25
ppt制作好学吗_怎么学好PPT的制作全球观察
2023-06-25
Theshy严重失误！葬送好局！WBG不敌BLG官博炸了，粉丝喊话换上单
2023-06-25
每日热点：上海界龙稀土精细研磨材料有限公司
2023-06-25
天天热讯:苏州昆山高新区挂牌1宗商住地起价5.05亿元、商办部分全自持
2023-06-25
影史第二！2023端午档总票房破9亿
2023-06-25
2023年3月广汽传祺传祺GS4 PLUS销量多少？在哪个城市卖得最好？
2023-06-25
环球快消息！方坑岭影视基地签约！《老炮敢死队》后天开机
2023-06-25
端午节假期国内旅游出游人次破亿|天天速读
2023-06-25
世界速递！螃蟹粽、虾粽、兔子粽……90后姑娘和老爸学“花式包粽”教给更多人
2023-06-25
全球简讯:英伟达 RTX 40 公版显卡国内缺货、第三方加价，海外原价现货
2023-06-25
引领餐桌新“食”尚环球微动态
2023-06-25
天天要闻：手机带有手电筒的注意了！原来还藏着这个小机关，我也是刚知道！
2023-06-25
全球球精选！迈阿密国际老板贝克汉姆社媒晒图，祝梅西36岁生日快乐
2023-06-25
博人传：佐助关键时刻救下小公主，巳月为营救博人终开仙人模式！
2023-06-25
前沿热点：花与茶携手芳香满园名满天下
2023-06-25
最新提示！泰山景区23日夜间时段门票预约已满
2023-06-25
暴力梅“闹”苏南，25日早高峰仍有雨水叨扰|世界时快讯
2023-06-25
羊肝可以冷冻保存吗_羊肝可以放冰箱冷冻吗
2023-06-25
鲩鱼是什么鱼一般超市能买到吗环球聚焦
2023-06-25
短的英文单词_短的英文全球新要闻
2023-06-25
叶臣和叶红线全文阅读_叶臣
2023-06-25
未来三天江苏以阴雨天气为主 6月27日气温回升至35℃ 世界视讯
2023-06-25
玩手机英语地道表达，教你3种地道表达方法焦点热门
2023-06-25
奥迪S3怎么样及斯巴鲁BRZ手动type-RS多少钱
2023-06-25
教你制作最简单的手工风筝，带孩子去放风筝吧世界速看料
2023-06-25
网页部分内容显示不出来（网页上图片有的显示不出来是什么原因）当前聚焦
2023-06-25
天津武清，新生儿腿部被主刀医生掰断。-微头条
2023-06-25
巴中旅游景点大全排名（四川巴中旅游景点大全）
2023-06-25