您的位置 首页 linux 运维

Deepseek-幻方量化

杭州深度求索人工智能基础技术研究有限公司

AI公司深度求索(DeepSeek)正式上线全新系列模型DeepSeek-V3首个版本并同步开源。

“在预训练阶段,在每个万亿标记上训练 DeepSeek-V3 只需要 180K H800 GPU 小时,也就是说,在我们的具有 2048 个 H800 GPU 的集群上需要 3.7 天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为 2664K GPU 小时。结合 119K GPU 小时的上下文长度扩展和 5K GPU 小时的后训练,DeepSeek-V3 的完整训练成本仅为 2.788M GPU 小时。假设 H800 GPU 的租金为每 GPU 小时 2 美元,我们的总训练成本仅为 557万美元。请注意,上述成本仅包括 DeepSeek-V3 的正式训练,不包括与架构、算法或数据相关的先前的研究或精简实验的成本。”

 

DeepSeek-V3-Base 已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面

GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将上升至100亿美元甚至1000亿美元。

 

现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。

 

它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseek v3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代

DeepSeek V3刷屏,550万元2000张卡做出的开源模型,和OpenAI几亿烧出来的一样好 - 华尔街见闻 (wallstreetcn.com)

欢迎来撩 : 汇总all

白眉大叔

关于白眉大叔linux云计算: 白眉大叔

热门文章