gary|如何在图片与文字之间互相检索?程序员不可不知的跨模态技术

gary|如何在图片与文字之间互相检索?程序员不可不知的跨模态技术

【gary|如何在图片与文字之间互相检索?程序员不可不知的跨模态技术】对于程序员来说 , 如何在文本中检索到自己想要的内容 , 拥有很多种方法 , 比如说可以利用数据库来实现 , 也可以利用基于lucene的各累全文检索工具来实现 。 但是 , 如何在图像和文本之间互相检索对应的内容 , 很多程序员就不知道如何实现了 。 但是在实际应用中 , 我们存在着大量的应用需求 , 比如说从一堆图片数据中 , 检索到某个人的照片 , 或者是从一大片卫星图中 , 检索出想要的船舶目标等 。
那么 , 如何来实现这一需求呢?很多人会想到 , 通过查询关键字与图像的标注注释之间的匹配来检索 , 但是这样就依赖于人工的识别和注释 , 因此为被为伪“跨模态”问题 。 想要真正在图像和文本这两种模态的数据之间进行检索 , 应当以视觉数据和自然语言描述为基础 , 关注图像和文本两种模态的交互 , 从而在不借助任何辅助信息的情况下 , 实现两种模态数据的互相检索 。
通常来讲 , 文本与图像之间的语义关系可以定义为三个维度下的八种类别 , 包括不相关关系、互补关系、相互依赖关系、锚定关系、插图关系、对比关系、插图不良关系和锚定不良关系 。 随着深度学习技术的发展 , 基于深度学习的跨模态图文检索技术也日趋成熟 。
目前流行的图文检索算法通常分为两类:实值表示学习和二进制表示学习 。
实值表示学习方法通常具备更高准确率 , 且更关注图像和文本间的语义匹配问题 , 旨在学习一个实值公共表示空间 , 在该空间中不同模态的数据其通用表示是实值的 。 而二进制表示学习也通常被称之为跨模态哈希 , 通常用于加速跨模态检索 , 其将不同模态的数据映射到一个共同的汉明空间 。
实值表示学习方法 , 又可以分为两类:基于特征表示的方法和基于图文匹配的方法 。
基于特征表示的方法将基于深度学习的单模态特征提取算法应用在跨模态图文检索中 。 通常会对经典的CNN模型加以微调改进 , 从而对视觉特征进行探索 , 然后进一步共聚特征的文本表示 。
基于图文匹配的方法关注于不同模态间的续约关联 , 通常研究图像和文本模态间的语义对应关系来增强模态间特征表示的一致性 。 主流的基于图文匹配的方法按照模态间语义结构关联的不同可分为三类:图像-文本对齐的方法、跨模态重构的方法和图文联合嵌入的方法 。
二进制表示学习方法将跨模态数据投影到一个公共汉明空间 , 目的在于给相似的跨模态内容赋予相似的哈希码 。 所谓汉明空间就是各数据之间以汉明距离区别的空间 , 汉明距离是指两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数 。 换句话说 , 它就是将一个字符串变换成另外一个字符串所需要替换的字符个数 。 基于二进制表示学习方法由于二进制哈希码较短 , 有利于在现实世界中对大规模大批量数据的处理 , 因而被广泛应用到跨模态图文检索任务中 。
目前 , 跨模态图文检索技术在各重要领域都有着广泛的应用 。 例如 , 在医学领域中 , 可以面向特定类型的医疗数据进行检索和展现 。 通过输入关键字 , 在数据中找出对应的医学影像 。
总之 , 随着技术的发展 , 跨模态图文检索技术日趋成熟 , 也将应用到更多的领域上来 。