麻省理工学院|当AI学会高数:解题、出题、评分样样都行

麻省理工学院|当AI学会高数:解题、出题、评分样样都行
文章插图
“高等数学里程碑式的研究”,114页论文让AI文理双修,也许不久后机器出的高数试卷就会走进高校课堂,这下可以说“高数题不是人出的了”。
编译 | 王晔
编辑 | 青暮
人工智能虽然给我们带来了诸多便利,但也不免受到了各种质疑。在互联网领域表现良好的人工智能,在数学领域的很多表现却被认为是“出乎意料地糟糕”。基于Transformers的语言模型在零样本和少样本等各种自然语言处理(NLP)任务中取得了令人难以置信的成功。但是,“这些模型在解决数学问题方面基本上是失败的。”
中国科学院院士、普林斯顿大学数学系和应用数学研究所教授、北京大数据研究院院长鄂维南曾表示,神经网络可以帮助我们有效地表示或逼近高维函数,深度神经网络是一个有效的工具,它带来的影响是巨大的。
以上思路更多还是基于深度学习在特征提取上的优势,然而,在更简单或“低维”函数的、符号逻辑层面的推理中,神经网络真的毫无希望了吗?
回归人工智能发展萌芽阶段,符号语言的思想为数理逻辑的产生和发展奠定了基础。当时人们试图将对一切事物的理解与认知化为符号语言以及符号间的推理,以此思路构建的模型以符号为基底,但或许可以尝试另一种思路,就是先用神经网络挖掘符号的特征。
在最新的一项研究中,用神经网络的方法精确求解低维的数学问题被证实非常有效。
值得一提的是,该项研究中还用到了OpenAI Codex。作为一种生成软件源代码的深度学习模型,Codex 可以理解十几种编程语言,通过 API 提供的 Codex 模型在 Python 编程中也具有极强的能力,它在执行编程任务时能够考虑到上下文信息,包括转译、解释代码和重构代码。
该研究还被其研究团队称为“第一项可以规模化自动解决、评分和生成大学水平数学课程问题”的工作,打破了人们普遍认为的神经网络不能解决高等数学问题的观点。
“这些所谓不成功的研究只使用了基于文本的预训练,而既对文本进行预训练又对代码进行微调的神经网络,可以通过程序合成成功解决大学水平的数学问题。”
麻省理工学院|当AI学会高数:解题、出题、评分样样都行
文章插图
论文地址:https://arxiv.org/pdf/2112.15594v1.pdf

1
【 麻省理工学院|当AI学会高数:解题、出题、评分样样都行】
秒速解高数
机器学习模型真的可以解决单变量函数的图形绕轴旋转产生的体积、洛伦兹吸引子及其投影、奇异值分解(SVD)方法的几何图形等问题吗?
这项研究展示了机器学习在这方面的强大能力。机器学习模型可以大规模很好地解决麻省理工学院包括单变量微积分、多变量微积分、微分方程、概率和统计学导论在内的数学课程问题。
不仅如此,该团队的研究证实它还可以解决MATH数据集的问题,“MATH数据集是衡量模型的数学问题解决能力的基准,该数据集的主要来源是高中数学竞赛,如AMC 10、AMC 12和AIME等。目前为止,最先进的 Transformers ,如GPT-3,只对文本进行了预训练,GPT-3取得的最好成绩总体准确率为6.9%,并且在所有题目上的准确率都低于8.8%”。