一、Grok3 震撼发布:马斯克的”AI 超算工厂”落地
2025 年 2 月 18 日,马斯克旗下 xAI 公司正式发布新一代大模型 Grok3,这场耗时 19 个月打造的”算力豪赌”引发全球关注。
在发布会上,马斯克携三位核心成员(包括两位华人科学家 Jimmy Ba 和吴宇怀)演示了 Grok3 的太空轨道计算、游戏开发等能力,并宣布成立 AI 游戏工作室。

作为首个在 20 万张 H100 集群上训练的大模型,Grok3 不仅推出满血版和 mini 版,还搭载了新型搜索引擎 DeepSearch 和”思维链”推理功能。
其订阅模式分为 X 平台 Premium+会员(优先体验)和独立订阅 SuperGrok(30 美元/月),语音模式因技术问题推迟一周上线。
二、性能屠榜:数学推理碾压竞品,竞技场首破 1400 分
Grok3 在多项基准测试中展现统治级表现:
- 数学能力:在 2024 美国数学邀请赛(AIME)中斩获 93 分,远超 DeepSeek-V3(39 分)和 GPT-4o(85 分)
- 科学推理:GPQA 测试 75 分,超越 Gemini 2 Pro(68 分)
- 编码能力:LCB 测试 57 分,较 DeepSeek-V3 提升 58%
- 竞技场评分:以 1402 分成为首个突破 1400 分的模型,较前代 Grok2 提升近 10%
更令人瞩目的是其”测试时计算”能力:开启”Big Brain”模式后,模型可调用额外算力进行深度思考。
在火星返回轨道计算任务中,Grok3 通过数值求解开普勒定律生成精确 3D 动画代码,而同类模型生成的代码”飞船根本未靠近火星”。
三、Karpathy 亲测:推理达 SOTA,但存在致命短板
AI 大牛 Andrej Karpathy 获得早期体验资格后,给出深度评测:
- 亮点:成功生成《卡坦岛》风格的六边形棋盘游戏代码,推理水平与 OpenAI 顶级模型 o1-pro(月费 200 美元)相当,物理模拟测试效果媲美 o3-mini
- 短板:未能破解”表情符号谜题”(隐藏 Unicode 信息解码),而 DeepSeek-R1 曾部分破译
- 综合评价:”考虑到 xAI 仅用 19 个月从零起步,Grok3 的成就堪称奇迹”
四、20 万 GPU 打造”算力巨兽”,训练成本碾压 GPT-4
xAI 团队在发布会上透露,Grok 3 背后有 20 万张英伟达 GPU 、4 亿个 GPU 小时的超强算力支持。
- 硬件规模:分两阶段建成 20 万张 H100 集群,首阶段 10 万卡耗时 122 天,扩建至 20 万卡仅用 92 天
- 算力对比:相当于 GPT-4 训练算力的 12.8 倍(GPT-4 等效 15,625 块 H100),DeepSeek 算力的 7.2 倍
- 能耗惊人:数据中心峰值功耗达 250 兆瓦,采用特斯拉 Megapack 供电和液冷系统
这场”暴力计算”引发行业震动,当 OpenAI 用 2.5 万块 A100 训练 GPT-4 时,xAI 用 20 万块 H100 验证了 Scaling Law 的持续有效性,但算力翻数倍仅带来不足 10% 的性能提升,也引发”边际效益递减”的质疑。
Grok 3 会开源么?
马斯克表示,“我们通常会在新模型发布的时候,开源上一代模型,所以几个月后,我们也会对 Grok 2 进行开源。”
© 版权声明
文章版权归作者所有,未经允许请勿转载。