麻省理工学院|当AI学会高数:解题、出题、评分样样都行( 四 )

使用Codex进行提示生成也会产生一些问题。在某些课程中,直接用未经转化的原始问题来提示Codex并不能得到正确的答案。因此,需要将原始问题的形式进行转化,他们将其主要分为三类:
  1. 主题背景。为Codex提供与一般课程和具体问题相关的主题和副主题,可以帮助指导Codex产生正确答案。例如,对于概率中的条件预期问题,提供有关贝叶斯定理、预期值等背景。
  2. 库背景。为Codex提供解决特定问题所需的编程包/库也是非常有帮助的。例如,引导Codex使用Python中的Numpy包以解决线性代数问题。
  3. 定义背景。很多时候,Codex缺乏某些术语的定义基础。例如,Codex并不清楚扑克牌中 "Full House "的含义。明确这些术语的定义并让Codex理解它们,可以更好地指导其程序合成。
此外,他们还使用Codex,通过从数据集中创建一个有编号的问题列表,为每门课程生成了新的问题。这个列表在生成随机数量的问题后会被切断,其结果将用于提示Codex生成下一个问题。重复进行此过程,就可以为每门课程生成许多新问题。
麻省理工学院|当AI学会高数:解题、出题、评分样样都行
文章插图
图5:学生调查问题。学生要对60个问题中的每一个问题进行评分。
如上图所示,他们还在麻省理工学院和哥伦比亚大学选修过这些课程或其同等课程的学生中进行了长时间调查,比较了机器生成的问题和人写的问题在每门课程中的质量和难度。
麻省理工学院|当AI学会高数:解题、出题、评分样样都行
文章插图
图6. 学生调查结果。A组基于学生的评分,比较了人工编写的问题和本文研究方法为每门课程产生的问题的难度。该图显示了1(最容易)和5(最难)之间的难度评分的平均值,以及它们的95%置信区间。B组显示的是人工编写的和机器生成的问题被评为适合和不适合该课程的百分比。C组显示了被评为人写的或机器生成的问题的百分比。
然而,该研究还有一些局限性,如Codex只能接受基于文本的输入,因此该团队的方法无法对输入图像进行处理,无法回答带有必要视觉组成部分的问题,如数字或图表。其次,本研究没有涉及高级数学证明的问题,他们强调,这是研究的广度所带来的限制,而不是Codex的限制。
并且,他们的方法最后一步是通过执行一个程序来完成的,例如使用Python解释器,存在局限性。此外,理论上复杂性结果也不适用于本研究解决的具体实例。
3

总结
该团队的研究证明,对文本进行预训练并对代码进行微调的 Transformers能够解决训练能够通过程序合成解决、评定和生成大学水平的数学问题。
问题集的生成和分析进一步验证了这些惊人的结果。这项研究成功证实了现代程序设计语言可以作为一种替代性的表述和计算环境。由他们的方法不需要额外的训练,就可以扩展到其它STEM课程,并且可以给高等教育带来巨大的帮助。
他们的研究证实了,用现代编程语言进行的神经网络合成是更有活力和广泛适用的,有可能解决更广泛的问题。尽管任何有限的计算都可以被表示为足够大的表达式树,但人们可能会看到所需的表达式树的大小可能是任意大的。与图灵完备语言相比,这种灵活性得到了加强,因为已经存在的大量程序语料库让可用的标记表达式树的数量黯然失色。