百度入选ICML、IJCAI、ISIT等机器学习顶会的论文都在关注什么?

2021年 , 百度AI技术研究依然保持着高质量产出 。 近期 , ICML、IJCAI、ISIT等机器学习领域顶会收录了来自百度的数十篇论文 , 涵盖深度神经网络、多语言预训练、视频描述生成、AI辅助医疗诊断、量子信息等多个研究方向 。
国际机器学习会议(ICML)、国际人工智能联合会议(IJCAI)、IEEE信息论国际研讨会(ISIT)都是人工智能领域的国际顶级学术会议 。 在今年ICML大会开展同期 , 百度还举办了以飞桨为主题的ICMLEXPOWorkshop 。 这也是本次由国内企业主办的唯一一个Expo 。 本次Expo从计算视觉、自然语言处理、语音、量子计算等多个角度 , 全面展示了飞桨在深度学习领域强大的技术优势和深厚的产业实践积累 。
百度此次共有数十篇优质论文入选三大AI国际顶会 , 不仅展现了在人工智能多个技术领域的深耕与创新成果 , 更与技术不断落地应用、深入实际场景息息相关 。 目前 , 百度AI技术已赋能工业、能源、医疗、金融、农业、城市管理、交通、信息技术等各行业 , 推动AI工业大生产进程加速的同时 , 实际应用也为技术的迭代突破持续反哺 。
以下为百度此次在ICML、IJCA、ISIT上的主要论文介绍 。
百度ICML2021论文
1.随机傅立叶特征的量化算法
QuantizationAlgorithmsforRandomFourierFeatures
论文链接:http://proceedings.mlr.press/v139/li21i/li21i.pdf
非线性核方法是被工业界广泛应用的重要的机器学习模型之一 。 由于核函数矩阵的维度正比于数据点个数 , 大规模数据集在时间和存储上都给直接使用非线性核方法带来极大困难 。 对于最常见的高斯核函数 , 随机傅立叶特征(RandomFourierFeatures,RFF)可以有效地在线性时间内接近非线性核学习的效果 , 并且不需要直接计算庞大的核函数矩阵 , 因此成为大规模非线性核学习的重要工具之一 。
本文首次通过研究随机傅立叶特征的统计分布 , 提出基于Lloyd-Max(LM)最小失真准则的量化方法 , 以此进一步显著减少RFF的存储成本 。 我们给出LM量化下高斯核函数估计量的一系列严格理论结果 , 证明LM估计量的正确性和优越性 , 以及规范化量化后的傅立叶特征可以进一步降低高斯核估计的除偏方差 。 基于多个大规模数据集的实证分析证明 , 在平均可降低10倍以上的存储成本的前提下 , 经LM量化后的特征可以达到使用全精度傅立叶特征的准确率 。 该方法的表现显著优于过去已提出的随机量化方法 。 本文为工业级大规模非线性核学习提供了一种存储便利且效果极佳的压缩数据表征方法 。
百度在大规模非线性机器学习加速、随机投影和随机傅立叶特征等领域都有多年积累和丰富的成果 。 2021年发表的相关论文还包括:
lAISTATS2021,OneSketchforAll:Non-linearRandomFeaturesfromCompressedLinearMeasurementslWWW2021,ConsistentSamplingThroughExtremalProcesslAAAI2021,FastandCompactBilinearPoolingbyShiftedRandomMaclaurinlAAAI2021,RejectionSamplingforWeightedJaccardSimilarityRevisited2.基于有噪声观测量的高维光滑叠加函数的最优估计
OptimalEstimationofHighDimensionalSmoothAdditiveFunctionBasedonNoisyObservations
论文链接:http://proceedings.mlr.press/v139/zhou21c/zhou21c.pdf
随着机器学习在工业界中被广泛应用 , 各类算法和模型开始触及个人用户数据的方方面面 。 在使用各类算法和利用用户数据为大众生活提供便利的同时保障用户隐私就显得尤为重要 。 一个简单且被普遍使用的应对策略就是在收集的数据上通过添加噪声来达到保护用户隐私的目的 。
虽然添加噪声从一定程度上解决了保护用户隐私的问题 , 但随之而来的是运用带有噪音的高维数据到训练好的模型中 , 预测结果的准确率往往很低 。 造成此现象的根本原因是在高维统计学习中的一个基本问题:带有噪声的高维数据会使得模型预测的偏差随维度增加而变大 。