数据库|向量将死，哈希是 AI 未来( 二 )

不过，这个概念并不是什么新鲜事，只是最新的技术发现了更多的优势。从历史上来看，LSH 使用了诸如随机投影、量化等技术，但它们的缺点是需要较大的哈希空间来保持精度，因此其优点在某种程度上被抵消了。
对于单个浮点数来说这是微不足道的，但是具有高维数（多个浮点数）的向量呢？
因此，神经哈希的新技巧是用神经网络创建的哈希替换现有的 LSH 技术，以此得到的哈希值可以使用非常快速的 Hammin 距离计算来估计它们的相似度。
这听起来虽然很复杂，但实际上并不太难。总体来看，神经网络就是优化了一个哈希函数，具体表现如下：

与原始向量相比，几乎完美地保留了所有的信息；
生成比原始向量尺寸小得多的哈希；
计算速度明显更快；

也就是说，以一种较小的二进制表示，它不仅可用于非常快速的逻辑计算，并且信息分辨率也是几乎不变的，是一个两全其美的解决方案。
一般研究用于密集信息检索近似最近邻（ANN）时，往往可以使用向量表示来搜索信息，这样可以帮助用户找到概念上相似的一些东西。但是，哈希中的局部敏感性却拥有更加强大的优势。

密集信息检索

互联网时代，数据库是不可计数的，但搜索索引却寥寥无几，而且大多数索引都是基于相同的老技术，这主要是因为历史上语言是一个基于规则的问题。
标记、同义词、词干提取、词形还原等问题占据了许多天才的整个职业生涯，但仍未完全解决。
谷歌创始人拉里佩奇（Larry Page）曾说过，在我们的有生之年，“搜索”并不能得到解决。

文章插图

想想看，这一代如此绝顶聪明的人，投资数十亿美元为何还得不到解决？
很明显，搜索技术落后于数据库主要是由于语言问题，我们在过去几年中看到了语言处理方面的革命，而且还在加速。并且从技术角度来看，我们还将看到基于神经的哈希消除搜索和数据库技术的障碍。
参考来源：https://medium.com/@hamishogilvy/vectors-are-over-hashes-are-the-future-of-ai-98c4dc33d8ee

文章插图

【数据库|向量将死，哈希是 AI 未来】雷锋网雷锋网雷锋网