马斯克 20 万 GPU 炼出”推理怪兽”Grok3：性能屠榜，算力碾压 DeepSeek 与 OpenAI

行业动态1年前发布 Max

一、Grok3 震撼发布：马斯克的”AI 超算工厂”落地

2025 年 2 月 18 日，马斯克旗下 xAI 公司正式发布新一代大模型 Grok3，这场耗时 19 个月打造的”算力豪赌”引发全球关注。

在发布会上，马斯克携三位核心成员（包括两位华人科学家 Jimmy Ba 和吴宇怀）演示了 Grok3 的太空轨道计算、游戏开发等能力，并宣布成立 AI 游戏工作室。

马斯克 20 万 GPU 炼出

作为首个在 20 万张 H100 集群上训练的大模型，Grok3 不仅推出满血版和 mini 版，还搭载了新型搜索引擎 DeepSearch 和”思维链”推理功能。

其订阅模式分为 X 平台 Premium+会员（优先体验）和独立订阅 SuperGrok（30 美元/月），语音模式因技术问题推迟一周上线。

二、性能屠榜：数学推理碾压竞品，竞技场首破 1400 分

Grok3 在多项基准测试中展现统治级表现：

数学能力：在 2024 美国数学邀请赛（AIME）中斩获 93 分，远超 DeepSeek-V3（39 分）和 GPT-4o（85 分）
科学推理：GPQA 测试 75 分，超越 Gemini 2 Pro（68 分）
编码能力：LCB 测试 57 分，较 DeepSeek-V3 提升 58%
竞技场评分：以 1402 分成为首个突破 1400 分的模型，较前代 Grok2 提升近 10%

更令人瞩目的是其”测试时计算”能力：开启”Big Brain”模式后，模型可调用额外算力进行深度思考。

在火星返回轨道计算任务中，Grok3 通过数值求解开普勒定律生成精确 3D 动画代码，而同类模型生成的代码”飞船根本未靠近火星”。

三、Karpathy 亲测：推理达 SOTA，但存在致命短板

AI 大牛 Andrej Karpathy 获得早期体验资格后，给出深度评测：

亮点：成功生成《卡坦岛》风格的六边形棋盘游戏代码，推理水平与 OpenAI 顶级模型 o1-pro（月费 200 美元）相当，物理模拟测试效果媲美 o3-mini
短板：未能破解”表情符号谜题”（隐藏 Unicode 信息解码），而 DeepSeek-R1 曾部分破译
综合评价：”考虑到 xAI 仅用 19 个月从零起步，Grok3 的成就堪称奇迹”

四、20 万 GPU 打造”算力巨兽”，训练成本碾压 GPT-4

xAI 团队在发布会上透露，Grok 3 背后有 20 万张英伟达 GPU 、4 亿个 GPU 小时的超强算力支持。

硬件规模：分两阶段建成 20 万张 H100 集群，首阶段 10 万卡耗时 122 天，扩建至 20 万卡仅用 92 天
算力对比：相当于 GPT-4 训练算力的 12.8 倍（GPT-4 等效 15,625 块 H100），DeepSeek 算力的 7.2 倍
能耗惊人：数据中心峰值功耗达 250 兆瓦，采用特斯拉 Megapack 供电和液冷系统

这场”暴力计算”引发行业震动，当 OpenAI 用 2.5 万块 A100 训练 GPT-4 时，xAI 用 20 万块 H100 验证了 Scaling Law 的持续有效性，但算力翻数倍仅带来不足 10% 的性能提升，也引发”边际效益递减”的质疑。

Grok 3 会开源么？

马斯克表示，“我们通常会在新模型发布的时候，开源上一代模型，所以几个月后，我们也会对 Grok 2 进行开源。”

行业动态 # Grok # 马斯克

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

为了被榨干！英伟达下场优化 DeepSeek-R1，B200 性能暴增 25 倍，成本更更低

为了被榨干！英伟达下场优化 DeepSeek-R1，B200 性能暴增 25 倍，成本更更低

行业动态 # DeepSeek # 英伟达

1年前

0

OpenAI 深夜放大招！3 大工具 + 1个 SDK，手把手教你造 AI 智能体

OpenAI 深夜放大招！3 大工具 + 1个 SDK，手把手教你造 AI 智能体

行业动态 # OpenAI

11个月前

0

深夜炸场！全球首个混合推理模型 Claude 3.7 问世

深夜炸场！全球首个混合推理模型 Claude 3.7 问世

行业动态 # Claude

1年前

0

“李飞飞团队50 美元炼出 DeepSeek R1”被质疑，上海交大本科生新“低成本推理”或成新宠！

“李飞飞团队50 美元炼出 DeepSeek R1”被质疑，上海交大本科生新“低成本推理”或成新宠！

行业动态 # DeepSeek # 李飞飞

1年前

0