DeepSeek 成功训练了仅花费 29.4 万美元的 AI 模型

DeepSeek entrenó con éxito modelo de IA con costo de solo 294 mil dólares

北京。 中国人工智能开发商DeepSeek表示,该公司在训练其R1模型时花费了29.4万美元,这一数字远低于其美国竞争对手,这可能重新点燃了关于北京在全球人工智能竞赛中所处位置的辩论。

这家位于杭州的公司——这是它首次公开估计R1模型的训练成本——在《自然》学术期刊上发表了一篇经过同行评审的文章,该文章于周三发布。

DeepSeek于1月份发布的被认为是低成本的人工智能系统引发了全球科技投资者的股价下跌,他们担心新的模型会威胁到英伟达等人工智能领头羊的主导地位。

自那以后,该公司及其创始人梁文峰几乎从公众视野中消失,仅有一些产品更新。

《自然》杂志上发表的文章,梁文峰是其中一位合著者,声称DeepSeek的R1模型,专注于推理,花费了29.4万美元,并使用了512块Nvidia H800芯片。1月份发布的早期版本的文章中没有包含这些信息。

美国人工智能巨头OpenAI的首席执行官山姆·阿尔特曼在2023年表示,他所谓的“基础模型训练”花费了“超过1亿美元”,尽管他的公司没有详细公布任何发布的成本。

支持大型语言模型训练的成本指的是在数周或数月内运行大量高性能芯片集群,以处理大量文本和代码。

DeepSeek关于其开发成本和使用技术的一些声明受到了美国企业和官员的质疑。

Nvidia为中国市场设计的H800芯片是在2022年10月美国禁止向中国出口其最强大的H100和A100芯片后设计的。

美国官员在6月告诉《路透社》,DeepSeek拥有“大量”的H100芯片,这些芯片是在美国实施出口管制后购买的。Nvidia当时告诉《路透社》,DeepSeek使用的是合法购买的H800芯片,而不是H100。

《自然》杂志随附的补充文件中,该公司首次承认拥有A100芯片,并表示在开发的准备阶段使用了这些芯片。

“关于DeepSeek-R1的研究,我们使用了A100 GPU来准备实验,使用了一个较小的模型。”研究人员写道。之后,R1在512块H800芯片的集群中总共训练了80小时。

路透社此前报道,DeepSeek能够吸引中国最聪明的人才之一的原因之一是它是少数几家运营A100超级计算机集群的国内公司之一。

原创文章,作者:墨西哥华人网,如若转载,请注明出处:https://www.mxhuaren.com/news/6609.html

(0)
上一篇 4天前
下一篇 4天前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注