谷歌让NLP模型也能debug,只要给一张“草稿纸”就行( 二 )
文章图片
最后就是读Python代码了 。
代码的训练示例中 , 记录了正在执行的是哪行代码 , 以及此时各变量的值 , 用json格式表示 。
文章图片
此前的语言模型读代码的能力都表现不佳 。 “打断点”的方式可以让它们一改常态么?
首先 , 经过200个程序(都是人工编写的 , 包括简单的while循环和if语句)的测试发现 , “断点法”整体执行精度更高 。
与直接执行的模型相比 , 微调还可以将模型性能从26.5%提高到41.5% 。
文章图片
一个真实例子:
文章图片
“断点”法经过3次while循环 , 最终给出了正确的变量值 。
文章图片
接着 , 他们又用包含了1000个程序的MBPP数据集进行训练和测试 。
这些程序涉及多种数据类型的计算 , 包括整数、字符串、浮点数等 , 以及涉及循环、API调用和递归等流程结构 。
并添加训练数据之外的“singleline”程序集和CodeNet程序集进行测试 。
结果发现 , 模型也可以很好地扩展 。
文章图片
当然 , 这个方法也有局限性:
比如复杂的计算可能需要很“长”的暂存器 , 这可能需要进一步改进Transformer生成窗口的大小 。 好在这也是NLP领域的一个活跃研究领域 。
而在未来 , 他们可能会尝试在无监督情况下用强化学习让语言模型学会“打断点” 。
总之 , 语言模型的计算能力、读代码的能力会越来越强 。
论文地址:
https://arxiv.org/abs/2112.00114
—完—
- 5G|华为利用5G毫米波发现园区入侵者,这让美国5G联盟情何以堪
- 鸿蒙os|麒麟9000再度发力,华为高精度导航让你出行不迷糊
- 信息科学技术学院|瞧不起中国芯?芯片女神出手,30岁斩获国际大奖,让美国哑口无言
- 发现最小白矮星,其大小相当于月亮,这让科学家很兴奋
- 本周华为小米相继报出的新闻,让我看到中国科技公司未来发展希望
- 6g|港媒:中国又在这一领域让美国寝食难安
- 腾讯|前腾讯员工爆料:鹅厂的末位淘汰制让人心理崩溃!
- 美国|“绝不能让中国芯片供应自主计划得逞!”美国这回彻底不装了
- Windows|如果美国让微软断供中国windows系统,不会出现什么影响
- |美国美梦落空!中国北斗芯片问世,或让GPS彻底退出中国市场