
数学家们用一系列令人费解的新数学问题难住了最先进的生成式人工智能(AI)模型。
据Epoch AI研究机构称,这些问题通常需要博士级别的数学家数小时甚至数天才能解决。但在新的测试中,市场上最先进的人工智能模型在不到2%的问题上得到了正确的答案。
在过去的十年里,已经开发了许多人工智能测试来确定这些模型返回的答案是否正确。在许多情况下,人工智能模型现在可以轻松地通过这些基准。
例如,在常用的测量大规模多任务语言理解(MMLU)基准测试中,今天的人工智能模型正确回答了98%的数学问题。
Epoch AI的数学家埃利奥特·格雷泽(Elliot Glazer)及其同事在预打印数据库arXiv上发表的一篇新论文中写道,这些基准测试大多是为了测试人工智能做高中和大学数学的能力。(这篇论文还没有经过同行评议,也没有发表在科学期刊上。)
这套名为FrontierMath的新基准旨在提高推理水平。Epoch AI在数学教授的帮助下开发了这些问题,其中包括一些菲尔兹奖(Fields Medal)的获得者,这可能是数学领域最负盛名的奖项。这些问题涵盖了广泛的子领域,从数论到代数几何,可以在Epoch AI的网站上找到。
“这些问题极具挑战性,”2006年菲尔兹奖得主、加州大学洛杉矶分校的数学家特伦斯·陶(Terence Tao)在为Epoch AI撰写的一篇问题评论中写道。“我认为,在短期内,基本上解决这些问题的唯一方法是,在该领域没有真正的领域专家的情况下,将相关领域的半专家(如研究生)结合起来,也许将现代人工智能和许多其他代数软件包结合起来。”
这些问题也是独一无二的——这一步是为了确保人工智能模型的训练数据中没有任何问题。当复杂的推理问题包含在训练数据中时,人工智能可能看起来解决了问题,但实际上,它已经有了一个“小抄”,因为它已经接受了答案的训练。
研究人员测试了6种最先进的人工智能模型:b谷歌的Gemini 1.5 Pro(002)、Anthropic的Claude 3.5 Sonnet、OpenAI的01 -preview、01 -mini、gpt40和xAI的Grok-2 Beta。Gemini和Claude设法解决了2%的问题,这比01 -preview, 01 -mini和gpt - 40的1%略好。Grok-2 Beta没有解决任何问题。
然而,研究人员警告说,这些排名具有误导性,因为低成功率意味着单个正确答案可能对每个模型的整体得分产生巨大影响。
“即使一个模型得到了正确的答案,这并不意味着它的推理是正确的,”论文作者写道。“例如,在其中一个问题上,运行一些简单的模拟就足以做出准确的猜测,而无需任何更深层次的数学理解。然而,模型的低整体准确率表明,这种猜测策略在绝大多数FrontierMath问题上都不起作用。”
Epoch AI的合作者总结道,研究结果表明,目前人工智能模型还不具备研究级的数学推理能力。然而,随着人工智能模型的发展,这些基准测试将提供一种方法来发现它们的推理能力是否在加深。
该团队在声明中写道:“通过定期评估最先进的模型,并与人工智能研究界合作,我们的目标是加深对人工智能能力和局限性的理解。”











