二进制|安全419深度丨为什么认为极光无限是一家真正的AI安全公司?( 二 )


诚然,AI的发展离不开算法和算力的发展,但是在落地的过程中,AI早已从以模型为中心(model centric),变成了以数据为中心(data centric)的技术。以模型为中心和以数据为中心的方法相比,收益至少是2/8分的,但目前业界研究精力99%集中在模型上,这是问题所在,同样,这也是为什么知名AI专家Andrew Ng呼吁大家把研究重点转向数据的原因。
AI安全研究的难点并不在于建立什么样的模型,怎么样的框架,而是需要做出一个适合AI训练的领域数据集,然后根据这个数据集,进而再去创建更好的模型。创建一个漏洞数据集是极其复杂和困难的,“不夸张地说,在创建维阵产品的过程中,我们可能80%的工作都是在做数据集相关的工作。此处的数据集相关的工作不仅是收集数据,还包括数据的清洗,预处理,打标签,很多时候我们甚至需要为处理数据搭建一个大型的分布式处理框架出来。因此,在AI安全团队内部,还需要孵化出一个专业的数据团队。”
“并不是说邀请一个做AI方面的专家加入,对外声称创建一个AI模型,就是一家AI安全公司了,这样是远远不够的。如果决心要做AI安全的方向,那么整个公司包括研发、技术、市场等都需要围绕AI来建立,并不是说让AI团队来辅助安全团队来做一些产品功能的优化,相反,事实上是需要安全团队围绕AI团队来展开工作。”蒋博士表示。
据蒋博士介绍,在维阵产品的打造过程中,由仙果带领的二进制漏洞安全团队就协助俄罗斯的AI团队开展了大量的数据支撑工作,手动对大量的漏洞数据打标签,以帮助AI模型更好的学习和训练,这部分数据工作是非常核心的。而每当俄罗斯AI团队开发出新的AI模型时,也是先将模型分享给国内的仙果团队,由他们进行测试和评估模型的真实效果,反馈建议来进一步指导AI模型的持续优化。
蒋博士进一步补充,“未来随着一些可用的AI工具的出现,或许会降低对安全专家团队的需求,但现在市场上还并没有一款好用的AI安全工具产生,因此这也是极光无限在这个领域扎根的一个原因,因为这个工作确实是非常复杂,非常专业的。准确地说,维阵产品是目前已知的全球唯一一个以AI为核心的二进制漏洞探测产品,因此我们可以自信地告诉任何人,我们就是一家AI安全公司。”

为什么说建立数据集是做AI安全研究的难点?
蒋博士谈到:“刚刚我们有说到,要把AI真正进行落地的话,需要有大量数据方面的工作支撑,通常一个神经网络可能需要数百万,上千万,甚至上亿的数据样本来进行训练,才能够让AI模型建立对一个具体领域的知识框架。但是在把AI应用于安全行业中的漏洞检测领域时,有个非常大的问题是什么?在安全行业漏洞数据是极其稀缺的资源。获取漏洞数据的成本非常昂贵且困难。”
拿大家熟知的AlphaGo举例来看,AlphaGo早期版本的数据直接来源于大量的人与人之间的对弈棋谱,这些棋谱被转换成数据让一个基于卷积神经网络和强化学习的系统进行训练。对于AlphaGo这类棋类游戏来说数据集的建立就不是很复杂,而且也很容易获取。
而像计算机视觉这类领域,建立数据集也可以是通过给一些图片、视频打标签的形式完成,这些操作一些普通人就可以完成。甚至数据集建立的工作还可以外包给众包团队,让他们来协助完成打标签的工作。
但是在安全领域里面,如果想要获得一条打标签的完整数据,就需要一个资深的专家花费很长时间找到一个漏洞,然后再来打上标签,这个工作量极其庞大,因此要获取安全领域的打标签数据是非常昂贵和宝贵的。“因此这就意味着,我们不可能一次获得数百万量级的数据。”蒋博士表示。