多模态|人工智能:从“作坊式”走向“工业化”新时代( 三 )


打破应用门槛 解决人工智能“落地难”痛点
人民网:您如何看待这个平台的未来发展?
徐波:这是人工智能向更加通用化方向迈出的重要一步。以前的人工智能是属于“作坊式”的。想要做一个应用,需要从算法开始进行开发,类似于我们常说的“重复造轮子”。多模态大模型人工智能平台,是人工智能从“作坊式”向“工业化”转型升级的一次重要探索。通过对多模态大模型人工智能平台的持续研发、应用、优化、升级等,大大降低应用门槛和对应用人才要求,同时推动全自主可控软硬件体系的形成。
这个过程中大模型技术持续创新研发是我们的主责主业。例如现在计算量还比较大、成本和能耗也比较大,未来大模型在现有基础上还会有很多突破。需要我们不断融合类脑等智能新机制,使得大模型的运营成本越来越低,越来越好用。
目前,我们也正在同步研究大模型基础上蒸馏出小模型技术,这也非常重要。对于不想上云的,或者是应用场景不那么复杂的,其实并不需要用到大模型。因为大模型的参数特别多,使用成本非常高。这个时候,就可以用大模型中蒸馏出一个小模型,小到可能只有几兆的大小,不但降低成本,而且实现从通用向专用的进一步优化。
打个比方来说,大模型类似于一个知识非常渊博的老师,他学了无数多的数据,但是如果从事一件具体的工作,就不需要那么渊博的知识,这时候,我们可以根据需求,自动蒸馏出一个小模型,教出一个小徒弟来做这项工作。
人工智能要迈上工业化阶段,必须要满足以下几个条件,批量化,成本低,易访问,轻能耗以及最大程度的开源开放。未来,“云端的大模型+末端小模型”很可能会成为人工智能应用的重要模式。
人民网:这个平台,目前是否有一些成功的应用?
徐波:我们已经有一些应用,效果很好。以前解决不了或者解决不好的现在有了全新的技术手段。
我们在智慧媒体方面做了一些探索。和头部视频网站合作,针对其海量的短视频、电影和电视剧,做到了跨模态内容的检索。比如输入一段文字,就能定位到视频中的某一个片段;可以根据电视剧的简介自动生成1分钟的视频摘要;还可以指定某个特定演员出现的场景、某件事的前因后果等内容进行“跳播”。
工业视听觉已经进行了应用尝试。过去,人工智能在工业领域的应用是一个痛点,因为样本非常少,而且很多时候数据是多模态的。比如发动机的质检,往往是靠老师傅们“听”出来的。用人工智能怎么做呢?我们把各种各样的工业缺陷数据混合在一起,首先让机器进行模型自学,应用的时候只需要给两个样本,就可以达到很高的质检精度。这方面我们已经实验过了,原来可能需要一万个样本才能做到90%以上的识别率,现在只要用几个或几十个样本,精度就能达到90%,大幅降低了人工智能的应用门槛。
另外一个应用案例是具像化的教学,可以在打手语的同时生成对应图片,辅助学生理解,更好地达到教学目的。
类似的应用还有很多,只靠自动化所一家单位去落地,会错失大量的助推产业升级的机会,也会比较慢,所以一定要在推广模式上创新,吸引更多的人、更多的机构来实践,来应用。我刚才说的“2.0”就是这个意思。现在我们自己先做一些样例出来,然后进一步完善模型,通过标准化、流程化等一系列手段,将门槛降下来。未来越多人用,这个模型就会越完善,也越好用。
近期,自动化所联合大学、产业界等在积极推进 “多模态人工智能产业联盟”的建设,这个联盟的成立就是为了让产学研各界都能更好的应用我们创新的成果,并基于这些成果再去推广、完善。12月18日即将在武汉举行的“2021东湖国际人工智能高峰论坛”上,我们也会就推动人工智能通用化、技术应用国产化和参会嘉宾进行进一步的探讨与合作。