代码|中国700万程序员不够用怎么办？我们问了软件自动化专家北大谢涛( 二 ) 荣耀|赵明|科技|高质量|产业链

在这些思考基础上，谢涛对智能化软件工程的研究也深入到行业落地阶段。
在中国计算机大会（CNCC 2021）软件自动化技术论坛以及CCF TF第49期技术研讨会上，他剖析了制造型企业数字化升级面临的问题。
提出用工业互联网操作系统、智能制造低代码平台、工业智能质检平台助力制造型企业解决信息孤岛困局。
谁是谢涛？谢涛如今在北京大学计算机学院就职，担任讲席教授。
同时，他还身兼高可信软件技术教育部重点实验室（北京大学）副主任，北京大学信息技术高等研究院数据驱动软件开发实验室主任，北京大学新工科建设委员会副秘书长等众多职务。
他被评为美国科学促进会（AAAS）会士、电气电子工程师学会（IEEE）会士、美国计算机协会（ACM）杰出科学家、中国计算机学会（CCF）杰出会员。

文章插图
谢涛最近一次走进大众的视野，是他在软件工程国际顶级会议ASE 2021（自动化软件工程国际会议）中，斩获了最有影响力论文（Most Influential Paper Award）。
要知道，这是ASE自1986年创办的35年以来，该奖项首次被华人学者摘取（除了谢涛外，另外一篇同期获奖论文的作者包含一位澳大利亚华人学者）。
而谢涛所凭借的论文，便是他在2007年发表的《PARSEWeb：A Programmer Assistant for Reusing Open Source Code on the Web》。

文章插图
当时的谢涛正在北卡罗来纳州立大学担任助理教授，他和他的学生发现，程序员们在日常工作中经常会重复使用现有的框架或库。
但在这个过程中，一个问题便逐渐浮现了出来：
程序员知道他们需要什么类型的对象，但不知道如何通过特定的方法序列获得它们。
即便当时已经有了Google Code Search这样的代码搜索引擎，但要做到有效地去支撑这个编程问题，还是欠缺了一些东西。
基于这样的现状，谢涛和他的学生就决定“站在巨人肩膀”上开发出大代码挖掘基础设施。
具体而言，在这项研究中，他们提出了一种新方法ParseWeb，将“源对象类型→目标对象类型”这样的查询作为输入，并建议相关的方法调用序列。
这些序列可以作为解决方案，从查询中给出的源对象中获得目标对象。
谢涛团队的工作可以说是最早将大规模的代码搜索、机器学习和数据挖掘做了结合，成为大代码、软件大数据重要产业和学术方向的先驱“开荒者”。
这也正是14年后能够被ASE评为“最有影响力论文”的原因了。
ParseWeb的成功，一定程度上也奠定了谢涛在接下来的科研道路上，坚定对软件自动化的步伐。
而另一个里程碑一样的事件，发生在了四年后的2011年。
当时的谢涛正值学术休假，他利用这段时间来到了微软亚洲研究院访问，加入（现为副院长）张冬梅的团队一起合作。
他们所做的具体内容，叫做软件解析学（Software Analytics），这个名字是由张冬梅在2009年组建团队时命名，对软件解析学的定义则是由谢涛和张冬梅的团队在2011年一起合作给出的。
简单来说，软件解析学就是研发出一个数据驱动的解决方案，来解决软件及服务相关的一系列任务，服务广大软件产业人员。
他们推动了一系列对产业有着深远影响的软件解析学系统，包括Windows操作系统的性能调试、代码克隆的检测，以及现在所谓的智能化运维等等。
时至今日，软件解析学已然在软件工程领域蓬勃发展，成为了非常重要的子领域。
而也正如我们现在看到的，回到北大后的谢涛，依旧发力于软件自动化相关的工作。