百度入选ICML、IJCAI、ISIT等机器学习顶会的论文都在关注什么？( 四 ) 2021年

值得一提的是，该工作是继2020年ACL和IJCAI后，百度智慧医疗在AI辅助诊断上的延续性技术创新。在突破了诊断可解释性和知识与数据双驱动诊疗技术后，本次研究进一步革新了医疗文本处理模式，在维度升级的复杂电子病历下，针对数据与知识的联合建模方式做了更深层次的探索和应用。

文章图片
9.监控场景下的弱监督时空异常检测
Weakly-SupervisedSpatio-TemporalAnomalyDetectioninSurveillanceVideo
针对视频监控场景下的异常事件检测，我们提出弱监督时-空异常检测（WSSTAD）的新任务。即，仅仅利用视频级别标签作为弱监督信号，对输入的一段视频中异常事件出现的时间以及空间位置进行检测。前序研究中，弱监督方法仅能实现单一时间纬度的异常定位，无法进行空间位置的定位。本文提出的弱监督算法框架，首次实现了时间-空间两个纬度的异常事件定位，并且在经典数据集中取得了最佳的指标。由于训练阶段仅需要视频级别的标签，本文提出的方法可以极大节省标注人力。
具体而言，我们采用多实例学习框架（MIL），首先会从输入视频中提取不同粒度的时-空proposal作为实例，其中包括由连续帧中检测框所组成的tube实例，以及由视频片段组成的videolet实例。随后，将tube实例以及videolet实例分别送入一个双分支的网络，在每个网络分支中，采用C3D提取特征，并采用注意力机制实现特征增强。最后，通过两个分支之间的互助损失，实现时-空两个维度定位的互助学习。整体算法框架如下图所示。本文提出的方法在ST-UCF-Crime以及新提出的STRA两个数据集上获得了最佳的效果， VAUC分别达到了87.65%和92.88% 。

文章图片
10.DU-VAE:从隐变量空间多样性和不确定的角度增强变分自编码器
RegularizingVariationalAutoencoderwithDiversityandUncertaintyAwareness
作为最受欢迎的生成式表征模型之一，变分自编码器近年来已经被应用于各个领域。然而在具体实践中，当我们使用拟合能力很强的模型作为解码器时，变分自编码器时常会遇到后验坍缩(posteriorcollapse)现象。彼时，所有样本的隐变量后验分布趋近于相同，模型无法学习到有效的表征。
针对于这一问题，本文首先从隐变量空间的多样性与不确定性两种几何特性出发，分析发现只需要简单控制后验参数的分布，就可以有效地避免后延坍缩现象。并以此为理论依据提出，通过对于后验参数同时使用批处理标准化(BatchNormalization)与Dropout正则化，实现对于后验参数的控制。在三个公开数据集上的数值试验表明，该算法有效地提升了变分自编码器的性能，在数据拟合与分类任务中都取得了最好的效果。

文章图片
11.关于神经网络泛化、记忆与频谱偏好的再思考
RethinktheConnectionsamongGeneralization,Memorization,andtheSpectralBiasofDNNs
本文从频谱偏好(spectralbias)入手研究神经网络的泛化性、记忆性的关系。近来的研究发现神经网络在训练过程中往往呈现出泛化误差二次下降的现象，即在优化过程中其泛化误差呈现出“下降-上升-再次下降”的变化趋势。而这显然与以往对频谱偏好的单调性结论(神经网络从低频到高频、从简单到复杂地引入频率分量)相矛盾。
我们在泛化误差二次下降的实验设置下（引入部分标签噪声并且训练较多的回合数）对神经网络输出的频谱进行了统计。实验现象如下图，在前两个过程中高频分量被不断引入到神经网络的输出，表明模型的复杂度不断增加。然而通过进一步训练，模型的高频分量在第三个阶段由上升转为下降，使得模型的泛化误差再次开始下降。我们进一步发现，频谱的非单调变化是两种情况的组合：训练流形上的输出持续地引入高频分量来拟合噪声点，而非训练流形的输出频谱逐渐趋向于低频分量。训练流形上的准确率在记忆噪声点后开始下降，但是非训练流形的准确率却在相同阶段持续提升。这两种频谱现象的叠加效果最终揭示了泛化误差的二次下降。