实测Grok-3：速度超群-数学出众-逻辑思考却非最强

来源：国投新游网发布时间：2025-02-24 13:30:01

近日，科技界迎来了一次重大突破，人工智能初创企业xAI推出了其最新的Grok 3大模型，这一成果迅速引起了全球范围内的广泛关注。特斯拉CEO埃隆·马斯克更是亲自站台，称赞其为“地球上最聪明的人工智能”。

据官方公布的测试数据，Grok 3在多个基准测试中表现卓越，包括AIME（用于评估模型解决数学问题的能力）和GPQA（评估模型在博士级别物理学、生物学和化学问题上的表现）等，均超越了GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5以及Sonnet等其他顶尖大模型。

在大型模型竞技场Chatbot Arena（LMSYS）的测试中，xAI的工程师透露，Grok 3的早期版本以140分的成绩夺得榜首，力压Gemini 2.0 Flash Thinking实验版、ChatGPT-4o最新版本以及近期备受瞩目的DeepSeek R1等竞争对手。

然而，尽管Grok 3收获了诸多赞誉，但部分用户在亲身体验后对其能力表示了质疑。他们认为，Grok 3的表现并未达到马斯克所宣称的高度。对此，OpenAI的应用研究主管Boris Power也表达了失望之情，他指出Grok团队在模型评估中存在作弊和欺骗的嫌疑，并强调o3-mini在各项评估中的表现均优于Grok 3。

为了验证Grok 3的真实水平，每日经济新闻记者进行了一系列测试。测试结果显示，Grok 3确实展现出了世界顶级模型的水准，但并未与其他模型拉开显著的差距。Grok 3的响应速度极快，这是其与其他模型相比的一大优势。

实测Grok

在基础问题的测试中，如“9.9和9.11谁大？”这样的问题，Grok 3轻松应对，毫无压力。然而，在逻辑思考和文字理解能力的测试中，Grok 3的表现则略显不足。例如，在面对包含逻辑陷阱和双关语的问题时，虽然Grok 3成功答对了部分问题，但在某些复杂情况下，其推理能力仍不及DeepSeek R1。

实测Grok