图谱|科大讯飞认知智能,从场景中来,到行业中去( 四 )


大家选择了迎难而上、各个击破。
数据方面,科大讯飞研发了基于人机协同的多语种数据标注平台;算法方面,重点开展了多语种端到端统一建模框架、无监督/弱监督训练,以及语音/图片翻译多任务协同优化等方向的研究;研发训练效率优化方面,则构建了多语种模型自动训练及定制优化平台,以推动多语种系统的批量研发,解决人工耗时耗力的问题。
这些努力终于迎来了反馈。2021年10月26日,哈工大讯飞联合实验室(HFL)团队以总平均分84.1位列权威多语言理解评测XTREME(由谷歌举办,旨在全面考察模型的多语言理解与跨语言迁移能力)榜首,四个赛道中获得三项最好成绩。而后11月10日,国际低资源多语种语音识别竞赛OpenASR落下帷幕,科大讯飞-中科大语音及语言信息处理国家工程实验室(USTC-NELSLIP)联合团队参加了所有15个语种受限赛道和7个语种非受限赛道,并全部取得第一名的成绩。
从单点的核心技术效果上取得突破,跨过应用门槛,再到把创新链条上各个关键技术进行深度融合,“系统性创新”却仍没有形成严格意义上的闭环。
毕竟解决问题的方法路径虽然拨开迷雾逐渐清晰,但是“要解决什么问题”才是困扰这些科学家们的难题本源。
教育、医疗、司法、城市生态,每一个词语都无比厚重,一时间竟也无法用某几个词来总结和概括清楚其背后所牵连出的问题核心所谓何物:不管是教育的“减负增效”、“因材施教”、“资源均衡”,还是医疗的“医疗水平”、“就医体验”······
这些重大系统性命题到科学问题的转化,也许正回归了NLP或者说是认知智能的本真——定义问题。
“360行行行有专家,如何把各个行业的问题和知识特色定义好,怎么样形成一个框架把模型能够不断复制应用到各个行业”,这是盛志超和团队面临的挑战,也是科大讯飞未来继续突破的关键。
当重大系统性命题到科学问题的转化能力愈加强劲,单点的核心技术不断突破后深度融合、有机串联,系统性创新也就真正可以成为宏大历史命题的破题新解。

4、无限拓宽的神经网络我们曾经在对话科大讯飞AI研究院CV群的时候,将科大讯飞比喻为一个很宽、很深的生成式神经网络。
一个典型的生成式神经网络包括了输入层、编码层、输出层,对于一个AI企业而言,输入是AI三要素:算力、数据、算法,输出是技术和产品,编码层则是企业的组织方式和技术方法论,以及企业的人才。
在《不一样的科大讯飞,他们把计算机视觉踢进“世界杯”》这篇文章中,我们了解了科大讯飞对人才的重视,以及独特的组织方式。
研究院设立的3个研究方向——CV方向、认知方向、语音方向,相互独立,又深度融合,为优秀的人才提供了平等、开放的交流平台,让他们得以锻炼自身、发挥潜力、博采众长。
但这只解开了科大讯飞这个神经网络的编码层的一半秘密,另一半秘密,也许可以从盛志超和团队在NLP落地路径上一窥究竟:不管是当初势在必行的转型之路,还是后来在教育、医疗等场景领域的打磨,一切核心都是在做一件事儿,那就是定义并建立对不同行业的真正认知。
认知行业和定义问题,使得科大讯飞在选择方向时不受自身行动能力的限制,进而无限拓宽了科大讯飞这个神经网络的宽度。
关键技术顶天,行业认知立地,当打破了实验室和现实的隔阂之后,技术不再局限于自身,而是和广大的外部场景做关联,最终成就了科大讯飞AI技术能够迅速从研发到规模化落地的能力。我们也就有理由相信,“用人工智能建设美好世界”的使命绝不是纸上谈兵。