AI大模型加持,生成式搜索来了

梦晨发自凹非寺量子位|公众号QbitAI最近有两件事 , 让搜索引擎重回聚光灯下 。
百度发布“文心百中” , 用AI大模型技术驱动的产业级搜索系统 。 构建企业内部搜索引擎的人力成本减少90%以上 , 同时只需要极低数据 。
几乎同一时间 , OpenAI最新发布聊天机器人ChatGPT , 网友发现用它来寻找问题的答案虽然有时会出错 , 但直接得到完整回答的感觉要比从搜索中再去挑选爽快多了 。
搜索引擎这个经典技术 , 就要迎来一轮变革了吗?
想当年 , 搜索引擎是PC互联网时代的流量入口 , 绝对的王者 。
进入移动互联网时代后 , 虽然不再是最受关注的焦点 , 但搜索也仍旧是高频刚需 , 逐渐融入人们的日常生活 。
当人们重新把目光看向搜索引擎 , 也会注意到它这些年并没有停止进化 。
搜索变了过去一提到搜索 , 肯定离不开关键词 。 前几届世界杯时 , 人们更习惯于搜“世界杯直播地址” , 关键词之间用空格隔开 。
就好像把所有网页当成一个大文档 , 用类似Ctrl+F的方式去对关键词做匹配 。
随着手机、移动互联网的普及 , 人们的需求也在变化 , 现在更倾向于提出一个问题 , 并期待搜索引擎能直接给出回答 。
如搜索“世界杯直播在哪看?” , 更口语化也更复杂 , 甚至一些时候就是语音转换出来的 。
AI大模型加持,生成式搜索来了
文章图片
搜索引擎也在适应这种变化 , 给出的结果不再是单纯的页面排序 。
针对一些问题 , 会给出对内容深入理解后的答案抽取 。
AI大模型加持,生成式搜索来了
文章图片
有时会给出更直观、更容易跟着操作的视频内容 。
AI大模型加持,生成式搜索来了
文章图片
甚至在理解需求的基础上出现配套的服务跳转 。
AI大模型加持,生成式搜索来了
文章图片
这些变化看起来并不复杂 , 背后却要有很多技术做支撑 。
在这里要重点讲一下百度今年亮相的两项新技术 , “知一”和“千流” 。
先看跨模态大模型知一 , AI技术在搜索场景落地的代表 。
简单来说 , 知一大模型可以从全网形态各异的资源中持续学习 , 无论是文本、图片、视频还是结构化信息都可以融会贯通 。
打破了资源形态的界限 , 就更容易理解用户的搜索需求 。
从技术层面讲 , 知一使用了百度文心大模型技术 。 大规模预训练技术提升模型性能 , 蒸馏压缩率高达99%的模型小型化技术以降低成本 , 得以在搜索场景全面应用 。
据了解 , 目前知一在百度搜索的各场景中每天要进行上万亿次的推理 。 如此巨大的使用规模又带来新的问题 , 如何把满足需求的结果高效呈现给用户 。
这就要提到新一代索引技术千流 , 负责把不同维度的信息进行智能有序的组织 。
千流与之前的索引技术相比 , 主打多领域、多维度表达的立体栅格化索引 。
如何理解栅格化?
在过去 , 搜索引擎为提高效率会把内容按质量横向分层 。 先从高质量内容开始检索 , 满足需求就可以及时返回结果 , 还未满足再进入下一层 。
如今 , 在千流中又把质量最高的一批内容按领域垂直分层 。 质量分层+内容命中结合 , 一横一纵把内容切分成栅格按需检索 , 大大减少每次检索的计算量 。
AI大模型加持,生成式搜索来了
文章图片