杜军|数字视网膜推进这三年,都有哪些新进展?

如果将现代化城市比作人的大脑,那么密布在城市各个角落的摄像头就是城市的眼睛。
无时无刻不在收集视觉信息的摄像头与人类的眼睛不同,前者不加筛选地收集海量信息,成本高,能源浪费严重,后者则能有效筛选出重要信息,整个视觉系统高效运转。
高文院士于2017年图灵大会上正式提出这一点,认为人类应该借鉴动物视觉演化的模式来建设智慧城市,并于当年10月份的安博会上正式提出“数字视网膜”这一概念。
杜军|数字视网膜推进这三年,都有哪些新进展?
文章插图

新一代人工智能产业技术创新战略联盟理事长高文院士
如今,已是数字视网膜概念推进落地的第三年,数字视网膜究竟如何效仿人类视觉系统运行?又有哪些行业最先成为数字视网膜的受益者?
数字视网膜的三个技术核心
数字视网膜,顾名思义,就是实现传统摄像头乃至视觉机器架构革新,尽力像人类的视觉系统一样,更加智能地支持城市大脑,服务智能安防,城市精细管理等应用。
在2021数字视网膜应用论坛上,鹏城实验室教授洪晓鹏对数字视网膜再次做出解释,他提出城市大脑应该向人脑学习分工协调,可采用仿生物视网膜的视觉计算架构来优化现存问题,让智能化的端边侧使系统更灵活,在云侧作为智能主体提供更强大智能资源,并优化存储传输使系统更经济。
传统摄像头只是将拍摄的视频数据压缩后上传到云端进行存储,再做分析识别处理。
数字视网膜则要求在摄像头端对视频拍摄进行高质量视频编码和视觉特征提取编码,对压缩过编码的视频流进行本地存储同时按需上传到云端,而所有的紧凑特征流同步实时同步到云端,从而既能够保证高效的存储,又能够便捷地支撑大数据查询分析,与此同时支持在端-边-云之间进行面向智能视频编码和特征分析的深度学习模型自适应迁移、压缩、更新与转换。
简而言之,数字视网膜就是这样一种包含视频编码流、特征编码流和模型更新流的可伸缩端边云协同视觉计算架构。
2013年,数字视网膜的提出者高文院士就已经对数字视网膜有了模糊的概念,他在接受人民网的一次采访时表示现代城市中摄像头存在痛点问题,虽然布局规模广泛且密集,但遇到重大案件时,难以发挥出真正的作用。
直到2017年的安博会,“数字视网膜”这一概念才正式诞生。
高文院士认为,数字视网膜包含三个核心技术:

  • 基于背景模型的场景视频编码。现有监控摄像头采用的视频编码技术标准对监控视频编码效率不高,因为这些标准主要是针对广播电视视频制定的。在监控场景下,大多数摄像头是固定的,背景相对不变,因而如能够利用背景预测,消除相应的冗余信息,那么编码效率将大大提高。
  • 视频特征的紧凑表达。视觉表征是图像视频分析处理的基础,如果在摄像头端利用人工设计特征与深度学习特征自适应融合技术提取帧内帧间视觉紧凑表示,然后传送到云端,就能大大提高搜索效率。他们曾实验表明平均每帧仅需100bit,可达到与未经压缩特征相当甚至更高的检索性能。
  • 视频编码与特征编码的联合优化。上述两种数据信息并不是相互独立的,而是相互关联,可互为指导的,因此数字视网膜在同时输出压缩视频流和紧凑特征流时,可以根据码流的大小,设计联合优化函数来计算如何分配各自的码率,从而在保持分析检索性能的情况下,进一步达到压缩需求。
此外,数字视网膜还有三个特点,分别为高性能、高效率和可伸缩。