lun不一样的科大讯飞,他们把计算机视觉踢进“世界杯”

lun不一样的科大讯飞,他们把计算机视觉踢进“世界杯”
文章插图
科大讯飞的标签,多了“计算机视觉”。
作者 | 青暮
编辑 | 岑峰
人工智能技术从开始到真实产生应用的突破是以时间为代价的。需要无数的科学家带着甘做冷板凳的决心潜心钻研,一坐就是十年、二十年。
而技术一旦突破,便有了改变世界的力量。
从1956年Dartmouth会议上第一次提出人工智能的概念到2006年深度学习概念首次问世,神经网络从诞生到真正意义上拥有了深度,经过了超50年的时间。
随着大数据和算力发展的助推,深度学习爆发出巨大的威力,一轮又一轮的研究热点在各项领域开花结果,全社会都热血澎湃地张望未来。
2010年,人类尝试复刻人脑聆听和处理人类语音的方式,DNN(深度神经网络)在语音识别方面出现革命性的突破。2012年,CNN(卷积神经网络)在图像识别上大获成功。至此,人工智能多项技术到达真正意义上“可用”的阶段。
从技术转向产业,2010年前后同样是个值得书写的年份:移动互联网时代来到发展的沸腾临界点,BAT格局已然成形,而后被无数资本追捧的AI四小龙,也都在2010年后相继成立。
而彼时,殷保才和吴嘉嘉还是两名就读人工智能相关专业的学生,在代码、公式和论文交错的实验室里,痴迷地探索着计算机视觉领域里一切可能的方向。
从校招入职,到如今成为科大讯飞AI研究院计算机视觉方向(CV)的领跑者,吴嘉嘉正带领着团队攻克图文识别领域内喜马拉雅山式的挑战——篇章级公式识别,并不断将技术扩展到更加复杂和深入的应用场景;殷保才牵头视觉领域的最前瞻技术探索,从视觉交互、遥感图像到多模态感知、3D感知,用自由的眼光看更远的未来。
因名字中的“才”和“嘉”,在科大讯飞研究院里,大家都津津乐道地称他们为“才”子“嘉”人。和他们一起的,是科大讯飞超百人规模的计算机视觉团队的研究员们,带领着科大讯飞计算机视觉多项技术保持着国际领先水平。
后来被问到,为什么在那个计算机视觉领域风起云涌的时代选择加入一家以人工智能“语音”技术而闻名的公司时,他们都给出了相似的答案:“发挥自己的作用,让科大讯飞的计算机视觉技术也达到国际领先水平。”
如今,从国际医学影像领域权威评测LUNA上刷新世界纪录、在计算机视觉顶级会议CVPR 2019和文档分析与识别顶级会议ICDAR 2019上的多项评测任务中获得冠军、到刷新目前公认自动驾驶领域内最具权威性的图像语义分割评测集Cityscapes全部两项子任务的世界纪录,无一不在向世界宣示着,科大讯飞早已不是那个只做“语音”的公司了。
而这一切的背后,是这群对技术无比热爱之人的初心坚守。

1

AI研究院计算机视觉的“才”子“嘉”人
因为从小就是典型的理科生,殷保才自觉对文字表达不感兴趣,思维比较发散,难以集中注意力,连小说都读不进去。在他的大脑里,似乎只有数学符号和图像是可理解的,“算是一种空间型思维吧”。
就连在职期间继续攻读中科大的博士学位也是院长费了好大力气劝说后才去的,因为“就是不想写论文”。
同样,在与吴嘉嘉交流的过程中,我们也发现了类似的特点。
只要我们说出文本行识别、公式识别这些词,他立马会连珠炮弹般把整个技术链路里里外外介绍一遍,尽管我们当时问的是“这项技术背后有什么故事?”。多次提醒后,他依然沉浸在分享这些细节中。这些精微的技术细节,仿佛才是他眼中的事件记忆。