北大谢涛获ASE 2021最有影响力论文奖,成为首位华人获奖学者

机器之心报道
编辑:蛋酱
一篇发表于ASE2007的经典论文 , 让ASE2021将「最有影响力论文」奖项颁给了北京大学教授谢涛和当时的博士生SureshThummalapenta 。
北大谢涛获ASE 2021最有影响力论文奖,成为首位华人获奖学者
文章图片
近日 , 软件工程国际顶级会议ASE2021公布了「最有影响力论文」奖项(MostInfluentialPaperAward) , 北京大学计算机科学技术系讲席教授谢涛和他早年指导的前北卡州立大学博士生SureshThummalapenta共同获奖 。
ASE是软件工程领域的顶级国际会议 , 创办于1986年 。 一般来说 , 年度ASE最有影响力论文奖是从之前15年左右(包括14、15、16年前)在ASE会议上所发表所有论文中选出最具影响力的论文 。 本次获奖的论文是谢涛与SureshThummalapenta合作的ASE2007年论文《PARSEWeb:AProgrammerAssistantforReusingOpenSourceCodeontheWeb》 。
北大谢涛获ASE 2021最有影响力论文奖,成为首位华人获奖学者
文章图片
论文链接:https://taoxiease.github.io/publications/ase07-parseweb.pdf
这一研究是从ASE2006、ASE2007、ASE2008三年181篇被录用论文(三年共713篇投稿)中选出来的获奖论文 。
在软件工程三大国际顶会ICSE、ESEC/FSE、ASE的历年最有影响力论文奖(ICSEMIPAward , ESEC/FSETestofTimeAward,ASEMIPAward)获奖作者中 , 谢涛是三位华人之一(另外两位是HongjunZheng和AmyJ.Ko) , 也是迄今获得ASE最有影响力论文奖的唯一华人作者 。
在今年11月将线上举行的ASE2021会议中 , 谢涛教授和SureshThummalapenta博士将在特邀大会报告中对该论文及其影响力进行分享 。
获奖论文介绍
程序员通常重用现有的框架或者数据库来减少软件开发工作量 , 其中的常见问题是 , 程序员知道他们需要什么类型的对象 , 但不知道如何使用特定的方法序列获得该对象 。
为了解决这个问题 , 谢涛和SureshThummalapenta开发了一种方法 , 以「Sourceobjecttype→Destinationobjecttype」形式的查询作为输入 , 并推荐常用的Method-InvocationSequence(MIS) , MIS可以将Source类型的对象转换为Destination类型的对象 。 该方法使用代码搜索引擎(CSE)来收集相关的代码样本 , 并对其进行静态分析以提取所需的序列 。 由于代码样本是通过CSE按需收集的 , 因此该方法并不局限于任何特定框架或库的查询 。
他们使用一个名为PARSEWeb的工具实现了该方法 。 PARSEWeb与GCSE协同 , 以搜索具有给定Source和Destination对象类型用法的代码示例 , 并下载代码示例结果以形成本地源代码存储库 。 PARSEWeb分析本地源代码存储库 , 使用序列后处理器提取不同的MIS , 并聚集类似的MIS 。 提取的MIS可以作为给定查询的解决方案 。 PARSEWeb使用几个排序启发式方法对最后一组MIS进行排序 。 此外 , PARSEWeb还使用一种叫做查询分割的额外的启发式方法 , 它有助于解决给定查询的代码示例被分割到不同源文件中的问题 。
在实验阶段 , 研究者进行了四种不同的评估 , 表明该方法在解决程序员的查询需求方面是有效的 , 此外还证明了PARSEWeb比此前的相关工具(Prospector和Strathcona)表现更好 。
PARSEWeb这项研究首次把数据挖掘和机器学习所用的软件制品数据源从单个或几个开源系统拓宽到整个互联网上的软件制品 , 成为大代码、软件大数据重要产业和学术方向的先驱「开荒者」 。 这个范围的拓宽是基于代码搜索和代码挖掘的有机结合 , 有效地解决了在辅助软件工程任务时相关数据点不足的问题 。
这篇获奖论文也是数据驱动的智能化软件开发领域的最早期经典代表作之一 , 以大代码挖掘的手段来实现智能「程序员助手」 。 其所贡献的技术首次有效地解决了在一个特定软件开发问题上的数据驱动软件自动化:如何自动地合成方法调用序列来获取一个给定类的对象 。