360|中国队刷新知识图谱“世界杯” 一看冠军团队我愣住了( 二 )


最终,该方案达到了榜单上亮眼的“小参数模型登顶”的结果 。
值得注意的是,这个模型不是单纯“炫技“或“刷榜”产物,参加完比赛的TripleRE可没“失业“ 。
由于这一模型能够更好地获取实体表征,因此对知识图谱领域内亟待解决的一些问题,比如难以在抽取数据后实体文本进行融合对齐,也提供新的思路和方法——
目前在360的不少应用场景里都能看到它的身影 。比如,360搜索就已经应用了该模型,提高了信息搜索的准确度 。
“白帽子军团”的Geek基因
这一模型背后有一个十人左右的算法团队,而此次的参赛阵容则主要是三人 。
除去一位实习生,开头提到的那位2019级刚刚毕业的硕士生叫做俞龙,主要负责打比赛 。他硕士毕业于武汉大学,同年校招加入360,负责右侧实体推荐,知识抽取,垂直领域知识图谱构建等工作 。
另一位“刚刚加入的新人”叫做刘焕勇,在比赛中则担任技术评估和讨论 。他在2017年硕士毕业于北京语言大学,曾任职于中国科学院软件研究所,去年8月刚刚加入360,是算法专家和知识图谱算法组负责人 。
在谈及TripleRE模型及其未来的计划时,刘焕勇表现地非常谦虚,他认为TripleRE模型当前还是阶段性成果,还有许多值得优化的地方 。
具体的,他们会继续围绕360内部很多大规模知识图谱构建和应用的场景做迭代开发,进一步推广到企业图谱、安全等其他业务里去 。
不过,在被问到获奖感受时,他一改画风,露出了些许年轻人的本性,连连笑称“激动人心” 。
在360内部看来,这是个振奋人心的成果,而外界除了围观点赞之外,也多少对360这个网安赛场上的“常胜将军”拿下AI比赛的冠军感到有些意外 。
可在360 人工智能研究院(以下简称“360AI研究院”)院长邓亚峰看来,“这本就是团队内部长期的研发方向之一 。”
360|中国队刷新知识图谱“世界杯” 一看冠军团队我愣住了
文章图片

为何?这就要说到360的三层沉淀 。
第一,互联网、IoT、安全等多项业务并行的360,有着超大规模的应用场景和数据量 。
比如,在互联网领域,囊括360安全卫士,浏览器,导航搜索等多个方面,涉及到的数据也是包含了图文、视频的复杂信息流,不间断地实时更新 。
在数字安全领域,360积累了2EB海量安全大数据,其中包括总量180+亿恶意网址、5万亿+存活网址、样本文件300亿+等 。而随着2019年在政企安全领域的深耕,安全数据在更加复杂的场景得到了不断的验证、训练和补充 。
如此广阔的业务覆盖领域,也难怪刘焕勇在被问到初入公司最深刻的印象时,脱口而出的便是:数据量特别大,尤其是安全的数据,对我冲击力很强 。
业务范围广,加上多年运营,提供以大量宝贵的数据积累,涉及了计算机视觉、语音语义对话、自然语言理解、机器人运动、智能安全等主流的人工智能研究方向 。
在数据即资源的AI时代,这些业务场景数据无疑是AI研发的绝佳的“练兵场” 。
还是以「搜索」为例 。
近些年,360一方面利用知识图谱技术,自动化抽取搜索查询词以及网页内容里面的实体、属性以及关系,并构建实体之间的关联,通过知识图谱向量化技术帮助提升搜索和推荐效果;
另一方面,用自然语言预训练模型提升语义理解的能力,并应用在搜索引擎的各个环节,整体取得的提升近20%;此外,还通过图文跨模态技术将图像搜索的错误率降低到了原来的1/4 。