异构表格数据的挑战,深度神经网络如何解?( 二 )


由于数据收集步骤 , 特别是对于异构数据 , 成本高昂且耗时 , 因此有多种方法可以生成合成表格数据 。 然而 , 对表格数据中行的概率分布进行建模并生成真实的合成数据具有挑战性 , 因为异构表格数据通常包括离散和连续变量的混合 。 连续变量可能有多种模式 , 而离散列通常是不平衡的 。 所有这些缺陷与缺失值、噪声值或无界值相结合 , 使得表格数据生成问题变得相当复杂 , 即使对于现代深度生成架构也是如此 。 第5章讨论了SOTA表格数据生成方法 。
另一个重要方面是对表格数据的深度神经网络的解释(Griscietal. , 2021) 。 许多用于解释深度神经网络的流行方法源于计算机视觉领域 , 其中突出显示像素组 , 创建所谓的显著图 。 尽管如此 , 对于表格数据集 , 突出显示变量关系也是必不可少的 。 许多现有方法 , 尤其是那些基于注意力机制的方法(Vaswanietal.,2017) , 是通过设计突出显示关系 , 并且它们的注意力图可以很容易地可视化 。
基于本研究 , 数据科学从业者和研究人员将能够快速为用例或研究问题确定起点和指导 。
异构表格数据的挑战,深度神经网络如何解?
文章图片
下图1是基于表格数据的深度学习模型的概览:
异构表格数据的挑战,深度神经网络如何解?
文章图片
下图2是基于表格数据的生成模型的概览(按时间排序) 。
异构表格数据的挑战,深度神经网络如何解?
文章图片
该论文2-8章的主要内容如下:
第2章讨论相关工作 。 为了向读者介绍该领域 , 在第3章描述了领域内的数据形式、该领域历史的简要概述、列出了通常遇到的主要挑战 , 并提出了使用表格数据进行深度学习的可能方法的统一分类法 。 第4章详细介绍了使用深度神经网络对表格数据进行建模的主要方法 。 第5章概述了使用深度神经网络生成表格数据 。 第6章概述了表格数据深层模型的解释机制 。 在第7章总结了该领域的状态并给出了未来的观点 。 第8章论文列出了一些开放型研究问题 。
感兴趣的读者可以参考论文原文了解更多研究细节 。
第一期:快速搭建基于Python和NVIDIATAOToolkit的深度学习训练环境
英伟达AI框架TAO(Train,Adapt,andoptimization)提供了一种更快、更简单的方法来加速培训 , 并快速创建高度精确、高性能、领域特定的人工智能模型 。
11月15日19:30-21:00 , 英伟达专家带来线上分享 , 将介绍:
NVIDIATAOToolkit的独到特性
快速部署NVIDIATAOToolkit
利用NVIDIATAOToolkit快速搭建深度学习训练环境
利用TAOToolkit快速训练部署目标检测模型