AI 考高数得分 81,网友:AI 模型也免不了“内卷”!

AI 考高数得分 81,网友:AI 模型也免不了“内卷”!
文章图片
整理|禾木木出品|AI科技大本营(ID:rgznai100)高数是多少理科生的噩梦?小编当时就是一个高数很差的人
那让AI做一道数学题有多难呢?又何况是高数呢?
不久前 , 看到一则这样的热搜:
AI 考高数得分 81,网友:AI 模型也免不了“内卷”!
文章图片
是不是更难以接受了?!!!
多年来 , 科学家一直尝试让AI机器人挑战数学考试 , 但连年不及格 , 甚至低到20多分 。 因此 , 科学家们普遍认为人工智能无法挑战高数 。 然而近日 , 麻省理工的科学家基于OpenAICodex预训练模型在高数上通过few-shotlearning的正确率达到了81%!相关研究已经被ArXiv收录 。 课程范围从初级微积分到微分方程、概率论、线性代数都有 , 题目形式除了计算、甚至还有画图 。
语言模型Minerva
研究者发现 , 让AI解决数学问题存在多种方案 。
首先 , 利用最新的GPT-3语言模型通过文本预训练使用小样本学习仅能达到18.8%的正确率;其次研究者尝试使用小样本学习和最新的思维链提示 , 正确率上升到了30.8%;最后 , 研究者对代码进行微调 , 使用Codex进行少量学习的方式 , 让AI挑战麻省理工大学学院六门数学课程中的210道问题 , 正确率提升到了81.1% 。
研究团队的解决思路是先在文本上做预训练 , 再用代码进行微调 , 把数学问题转换成等价的问题 , 通过让AI自动生成补充提干的上下文 , 将题目自动生成适合模型运行的文本后 , 再生成对应的代码并运行 , 最终解决数学问题 。 研究团队下一步打算把这项技术扩展到更多课程 , 并考虑实际应用到教学中 。
在提交的这篇论文中 , 我们了解到他们推出了语言模型Minerva , 该模型能够解决数学和科学问题 , 让模型一步一步来 。 通过收集与定量推理问题相关的训练数据、大规模训练模型 , 以及使用先进的推理技术 , 该研究在各种较难的定量推理任务上取得了显著的性能提升 。
AI 考高数得分 81,网友:AI 模型也免不了“内卷”!】Minerva通过生成解决方案来解决问题 , 包括数值计算、符号操作 , 而不需要依赖计算器等外部工具 。 Minerva可以将自然语言和数学符号进行结合来解析和回答数学问题 。
此外 , Minerva还结合了多种技术 , 包括小样本提示、思维链、暂存器提示以及多数投票原则 , 从而在STEM推理任务上实现SOTA性能 。
Minerva不仅可以解决代数问题 , 还能解决物理、数论、几何、生物、化学、天文学等众多问题 。
AI 考高数得分 81,网友:AI 模型也免不了“内卷”!
文章图片
下面是Minerva解决几何问题:
AI 考高数得分 81,网友:AI 模型也免不了“内卷”!
文章图片
应用题上 , 可以列出方程式:
AI 考高数得分 81,网友:AI 模型也免不了“内卷”!
文章图片
甚至还可以推导证明 。
为了测试Minerva的定量推理能力 , 研究者们在不同的STEM基准上进行了评估 , 覆盖从小学水平的问题到研究生水平的课程 。 研究者们还在OCWCourses上评估了Minerva , 涵盖了从MITOpenCourseWare中收集的固态化学、天文学、微分方程和狭义相对论等各种STEM主题 。
结果表明 , 在所有数据集的评估后 , 5400亿参数的Minerva在各种测试集中达到SOTA , 有时甚至是大幅提升 。
不过 , Minerva也犯了很多错误 。
为了更好地确认模型可以改进的领域 , 研究者们分析了模型出错的问题样本 , 发现大多数错误很容易解释 。 结果表明 , 大约一半是计算错误 , 另一半是推理误差 , 原因是解决步骤没有遵循逻辑思考链 。