lun不一样的科大讯飞，他们把计算机视觉踢进“世界杯”( 二 ) 香港中央结算有限公司|四维图

“不想写论文”、“不会讲故事”的他们痴迷于技术本身。在他们的思维里，故事不是被抹杀了，而是在一个抽象空间里，将所有的累积汇聚成一体。在思维成形之前，空间里只有无逻辑关联的碎片。一旦关键的碎片找到后，思维成形，便是“灵感爆发”时刻。

文章插图

殷保才
这种空间型思维，让他们与计算机视觉结缘。
尽管都是空间型思维，但这对“才”子“嘉”人也有着不同的思维习惯。
殷保才偏好直觉，比如在带领团队参加LUNA比赛时，创新性地采用了3D框架，“几乎是一瞬间就想到了。”
吴嘉嘉则偏好逻辑，比如在解释技术的时候，每一次都像是在发送逻辑缜密的文档，还是当场生成的。

文章插图

吴嘉嘉
接下来，就让我们深入科大讯飞这对计算机视觉领域“才”子“嘉”人的更多亲身经历，一探科大讯飞计算机视觉技术之究竟。

探索与投入

或许是语音的标签太过耀眼，科大讯飞在计算机视觉方向上的发展并不为外界所熟知。
2008年以前，科大讯飞的技术储备还是集中在与语音相关的技术方向上，从语音合成、语音评测到语音识别技术，科大讯飞在全球语音技术领域内已是全面领先地位。
而2008年，几位探索计算机视觉领域内图文识别（OCR）技术方向的研究员们已默默的开始了漫长的征程。从探索、沉淀、到全面爆发，一等就是十年。
“OCR一开始在研究院是一个很小的方向。当时很多人不理解，大家觉得OCR就是识别字符，落地的场景就是类似街边的街景字符的识别。回头来看，随着信息化时代的到来，OCR应用的场景非常广泛，带来的社会价值是巨大的。”吴嘉嘉说道。
比如在教育领域，差不多也就在2013、2014年左右，我们非常清楚地看到了人工智能在教育里应用的潜力，从智能阅卷、评分测评、到现在“因材施教”的个性化教育，OCR技术几乎是所有教育应用的入口。
“OCR技术一定要结合实际场景的需求，定义OCR技术问题也必须来自于实际场景的重大刚需问题，只做技术是不行的，这也是人工智能落地里科大讯飞探索出来的方法论。”
2014年，吴嘉嘉开始攻关文本行识别技术，在此之前，吴嘉嘉已率先尝试用深度学习的CNN技术来做孤立字识别，识别精度相对基线版本大幅提升了30%，并在讯飞输入法上得到了很好的落地。
但后来他发现，孤立字识别技术根本不适应文本行识别问题，文本行识别的一个常规思路是首先对字符进行切分，然后进行单字符识别。由于涉及手写字体，很多人写字会习惯性地连笔，这就让切分变得困难了。
也许，图像识别的答案要在计算机视觉之外去寻找。

文章插图

吴嘉嘉工作照
技术的创新常源于灵感的瞬间爆发。
在投入语音识别技术的时候，很少有人能想到语音识别技术的逻辑和方式能够被同为模式识别分支的字符识别所借鉴。
语音技术深厚的积累给团队带来了无尽的宝藏，在文本行识别的研究中，他们找到了融合的契机——语音识别要将连续的波形转化出分离的字符，而波形和手写字类似，也是无法拆分的。
这几乎是完美的答案。
AI研究院的小伙伴们快速完成了语音识别到计算机视觉之间的算法框架迁移和借鉴，将语音识别中的HMM模型框架引入到文本行识别，精度大幅提升。