二值化每个特征,微软用1350亿参数稀疏神经网络改进搜索结果
选自Microsoft博客
机器之心编译
机器之心编辑部
GPT-3强大 , 但不是很「聪明」 , 微软提出了一种大规模稀疏模型 , 改进了生产型Transformer模型 , 在自家搜索引擎Bing上改进并测试 , 性能大幅提升 。
文章图片
近来GPT-3等基于Transformer的深度学习模型在机器学习领域受到了很多关注 。 这些模型擅长理解语义关系 , 为大幅改进微软Bing搜索引擎的体验做出了贡献 , 并在SuperGLUE学术基准上超越了人类的表现 。 但是 , 这些模型可能无法捕获超出纯语义的查询和文档术语之间更细微的关系 。
来自微软的研究者提出了一种大规模稀疏模型「MakeEveryfeatureBinary(MEB)」 , 它改进了微软的生产型Transformer模型 , 以提升微软客户使用大规模AI时的搜索相关性 。 为了使搜索更加准确和动态 , MEB更好地利用了大数据的力量 , 并允许输入特征空间具有超过2000亿个二值化特征 , 这些特征反映了搜索查询和文档之间的微妙关系 。
为什么要用「二值化每个特征」的方法来改进搜索?
MEB能够为基于Transformer的深度学习模型提升搜索相关性 , 其中一个重要的原因是它可以将单个事实映射为特征 , 从而使MEB能够更细致地理解单个事实 。 例如 , 许多深度神经网络(DNN)语言模型在填写一句话的空白时可能会过度泛化:「(blank)canfly」 。 由于大多数DNN训练样本的结果是「birdscanfly」 , 因此DNN语言模型可能会用「birds」这个词来填补空白 。
MEB通过将每个事实分配给一个特征来避免这种情况 , 例如借助分配权重来区分飞行能力 , 它可以针对使鸟等任何实体的每个特征执行此操作 。 MEB与Transformer模型搭配使用 , 可以将模型提升到另一个分类级别 , 例如模型产生的结果将不是「鸟类会飞」 , 而是「鸟类会飞 , 但鸵鸟、企鹅等鸟类除外」 。
随着规模的增加 , 还有一个元素可以更有效地改进使用数据的方法 。 Bing搜索后的网页结果排序是一个机器学习问题 , 它受益于对大量用户数据的学习 。 用户点击数据的传统利用方法是为每个印象深刻的查询/文档对提取数千个手工构建的数值特征 , 并训练梯度提升决策树(GBDT)模型 。
然而 , 由于特征表示和模型容量有限 , 即使是SOTAGBDT训练器LightGBM也要在数亿行数据后才能收敛 。 此外 , 这些手工构建的数值特征本质上往往非常粗糙 。 例如 , 他们可以捕获查询中给定位置的术语在文档中出现的次数 , 但有关特定术语是什么的信息在这种表征中丢失了 。 此外 , 该方法中的特征并不总是能准确地说明搜索查询中的词序等内容 。
为了释放海量数据的力量 , 并启用能够更好反映查询与文档之间关系的特征表征 , MEB在Bing搜索三年中超过5000亿个查询/文档对上进行训练 。 输入特征空间有超过2000亿个二值化特征 。 使用FTRL的最新版本是具有90亿个特征和超过1350亿个参数的稀疏神经网络模型 。
使用MEB能够发现隐藏的关系
MEB正用于生产中所有区域和语言的100%的Bing搜索 。 它是微软提供的最大通用模型 , 具备一种出色的能力——能够记住这些二值化特征所代表的事实 , 同时以连续的方式从大量数据中进行可靠的学习 。
微软的研究者通过实验发现 , 对大量数据进行训练是大型稀疏神经网络的独特能力 。 将相同的Bing日志输入LightGBM模型并使用传统数值特征(例如BM25等查询与文档匹配特征)进行训练时 , 使用一个月的数据后模型质量不再提高 。 这表明模型容量不足以从大量数据中受益 。 相比之下 , MEB是在三年的数据上训练的 , 研究者发现它在添加更多数据的情况下能够继续学习 , 这表明模型容量能够随着新数据的增加而增加 。
- 苹果|马化腾称,腾讯只是一家普通公司,这是谦虚说法还是有所顾虑?
- 百度|马化腾的一句话,腾讯市值一小时暴涨1400亿港币,马云格局还是小了
- 魅族|魅族发布iPhone 13系列黑化独角兽手机壳:支持磁吸充电
- 将理论注入深度学习,对过渡金属表面进行可解释的化学反应性预测
- 我们的生活|社交正在推动“孤独生意”多元化发展,天聊将重塑用户精神世界!
- 财智干货|数智化发展任重道远,财务中台提升数据服务价值 | 大数据
- 测试|解码自动驾驶商业化进阶的亦庄样本
- 空气净化器|华为Mate 50搭载麒麟9000和骁龙8;720全效空气净化器2发布
- 马化腾|从不大放厥词,马化腾:腾讯随时被替换
- 马化腾|反垄断当前,小马哥见机行事:鹅厂只是一家普通公司,随时被取代