数据库|向量将死,哈希是 AI 未来( 二 )


不过,这个概念并不是什么新鲜事,只是最新的技术发现了更多的优势。从历史上来看,LSH 使用了诸如随机投影、量化等技术,但它们的缺点是需要较大的哈希空间来保持精度,因此其优点在某种程度上被抵消了。
对于单个浮点数来说这是微不足道的,但是具有高维数(多个浮点数)的向量呢?
因此,神经哈希的新技巧是用神经网络创建的哈希替换现有的 LSH 技术,以此得到的哈希值可以使用非常快速的 Hammin 距离计算来估计它们的相似度。
这听起来虽然很复杂,但实际上并不太难。总体来看,神经网络就是优化了一个哈希函数,具体表现如下:

  • 与原始向量相比,几乎完美地保留了所有的信息;
  • 生成比原始向量尺寸小得多的哈希;
  • 计算速度明显更快;
也就是说,以一种较小的二进制表示,它不仅可用于非常快速的逻辑计算,并且信息分辨率也是几乎不变的,是一个两全其美的解决方案。
一般研究用于密集信息检索近似最近邻 (ANN)时,往往可以使用向量表示来搜索信息,这样可以帮助用户找到概念上相似的一些东西。但是,哈希中的局部敏感性却拥有更加强大的优势。

4

密集信息检索
互联网时代,数据库是不可计数的,但搜索索引却寥寥无几,而且大多数索引都是基于相同的老技术,这主要是因为历史上语言是一个基于规则的问题。
标记、同义词、词干提取、词形还原等问题占据了许多天才的整个职业生涯,但仍未完全解决。
谷歌创始人拉里佩奇(Larry Page)曾说过,在我们的有生之年,“搜索”并不能得到解决。
数据库|向量将死,哈希是 AI 未来
文章插图

想想看,这一代如此绝顶聪明的人,投资数十亿美元为何还得不到解决?
很明显,搜索技术落后于数据库主要是由于语言问题,我们在过去几年中看到了语言处理方面的革命,而且还在加速。并且从技术角度来看,我们还将看到基于神经的哈希消除搜索和数据库技术的障碍。
参考来源:https://medium.com/@hamishogilvy/vectors-are-over-hashes-are-the-future-of-ai-98c4dc33d8ee
数据库|向量将死,哈希是 AI 未来
文章插图

【 数据库|向量将死,哈希是 AI 未来】雷锋网雷锋网雷锋网