Deepseek-幻方量化-白眉大叔

杭州深度求索人工智能基础技术研究有限公司

AI公司深度求索（DeepSeek）正式上线全新系列模型DeepSeek-V3首个版本并同步开源。

“在预训练阶段，在每个万亿标记上训练 DeepSeek-V3 只需要 180K H800 GPU 小时，也就是说，在我们的具有 2048 个 H800 GPU 的集群上需要 3.7 天。因此，我们的预训练阶段在不到两个月的时间内完成，成本为 2664K GPU 小时。结合 119K GPU 小时的上下文长度扩展和 5K GPU 小时的后训练，DeepSeek-V3 的完整训练成本仅为 2.788M GPU 小时。假设 H800 GPU 的租金为每 GPU 小时 2 美元，我们的总训练成本仅为 557万美元。请注意，上述成本仅包括 DeepSeek-V3 的正式训练，不包括与架构、算法或数据相关的先前的研究或精简实验的成本。”

DeepSeek-V3-Base 已经成为目前可用的最强大的开源基础模型，特别是在代码和数学方面

GPT-4o这样的模型训练成本约为1亿美元，而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内，AI大模型的训练成本将上升至100亿美元甚至1000亿美元。

现在DeepSeek用550万美金2000张卡训出的开源模型，和OpenAI几亿烧出的模型一样好了。

它旋即被再次称为“国货之光”，在预训练撞墙，一切都要扭转到推理阶段的变换节点，deepseek v3的一系列技术方法，数据指标和测试性能，以及口碑，都让它成了一件事的最好代

DeepSeek V3刷屏，550万元2000张卡做出的开源模型，和OpenAI几亿烧出来的一样好 - 华尔街见闻 (wallstreetcn.com)

欢迎来撩：汇总all

关于白眉大叔linux云计算: 白眉大叔

相关文章

tomcat 安装证书

Centos7 Linux编译报错missing binary operator before token及解决方法

centos 编译安装 ffmpeg 7.0.2

热门文章

1联想笔记本-insydeh20 setup utility怎么设置硬盘启动项

2dify_配置火山账号-火山的 Endpoint ID 在哪里找（豆包大模型）

3VMWare怎么开启GPU虚拟化

4Milvus 向量型数据库（云原生）Milvus demo

5pip is configured with locations that require TLS/SSL, however the ssl module in Python is not available