数据库|向量将死,哈希是 AI 未来( 二 )
不过,这个概念并不是什么新鲜事,只是最新的技术发现了更多的优势。从历史上来看,LSH 使用了诸如随机投影、量化等技术,但它们的缺点是需要较大的哈希空间来保持精度,因此其优点在某种程度上被抵消了。
对于单个浮点数来说这是微不足道的,但是具有高维数(多个浮点数)的向量呢?
因此,神经哈希的新技巧是用神经网络创建的哈希替换现有的 LSH 技术,以此得到的哈希值可以使用非常快速的 Hammin 距离计算来估计它们的相似度。
这听起来虽然很复杂,但实际上并不太难。总体来看,神经网络就是优化了一个哈希函数,具体表现如下:
- 与原始向量相比,几乎完美地保留了所有的信息;
- 生成比原始向量尺寸小得多的哈希;
- 计算速度明显更快;
一般研究用于密集信息检索近似最近邻 (ANN)时,往往可以使用向量表示来搜索信息,这样可以帮助用户找到概念上相似的一些东西。但是,哈希中的局部敏感性却拥有更加强大的优势。
标记、同义词、词干提取、词形还原等问题占据了许多天才的整个职业生涯,但仍未完全解决。
谷歌创始人拉里佩奇(Larry Page)曾说过,在我们的有生之年,“搜索”并不能得到解决。
文章插图
想想看,这一代如此绝顶聪明的人,投资数十亿美元为何还得不到解决?
很明显,搜索技术落后于数据库主要是由于语言问题,我们在过去几年中看到了语言处理方面的革命,而且还在加速。并且从技术角度来看,我们还将看到基于神经的哈希消除搜索和数据库技术的障碍。
参考来源:https://medium.com/@hamishogilvy/vectors-are-over-hashes-are-the-future-of-ai-98c4dc33d8ee
文章插图
【 数据库|向量将死,哈希是 AI 未来】雷锋网雷锋网雷锋网
- 数据库|OPPO悄悄上新机,骁龙8核+5000mAh电池,256G仅售1599元
- 数据库|丁磊致歉“鱼眼观察”作者并回应:已撤回删稿函
- 数据库|刘强东:如果我失去对京东的控制权,我立刻把京东卖了
- 数据库|国产数据库后浪崛起,OceanBase如何打入千行百业?
- oce国产数据库后浪崛起,OceanBase如何打入千行百业?
- 数据库|抖音、快手走上了阿里、京东的老路
- 小米 12/Pro 即将全球发布,已出现在印度尼西亚电信数据库中
- 数据库|大淘宝更重视直播了,中小商家如何掘金?
- S7-1200/1500连接MS SQL数据库
- 数据库|下一个“双十一”?电商巨头疯狂烧钱,春节大战薅羊毛机会来了!