异构表格数据的挑战,深度神经网络如何解?( 二 )
由于数据收集步骤 , 特别是对于异构数据 , 成本高昂且耗时 , 因此有多种方法可以生成合成表格数据 。 然而 , 对表格数据中行的概率分布进行建模并生成真实的合成数据具有挑战性 , 因为异构表格数据通常包括离散和连续变量的混合 。 连续变量可能有多种模式 , 而离散列通常是不平衡的 。 所有这些缺陷与缺失值、噪声值或无界值相结合 , 使得表格数据生成问题变得相当复杂 , 即使对于现代深度生成架构也是如此 。 第5章讨论了SOTA表格数据生成方法 。
另一个重要方面是对表格数据的深度神经网络的解释(Griscietal. , 2021) 。 许多用于解释深度神经网络的流行方法源于计算机视觉领域 , 其中突出显示像素组 , 创建所谓的显著图 。 尽管如此 , 对于表格数据集 , 突出显示变量关系也是必不可少的 。 许多现有方法 , 尤其是那些基于注意力机制的方法(Vaswanietal.,2017) , 是通过设计突出显示关系 , 并且它们的注意力图可以很容易地可视化 。
基于本研究 , 数据科学从业者和研究人员将能够快速为用例或研究问题确定起点和指导 。
文章图片
下图1是基于表格数据的深度学习模型的概览:
文章图片
下图2是基于表格数据的生成模型的概览(按时间排序) 。
文章图片
该论文2-8章的主要内容如下:
第2章讨论相关工作 。 为了向读者介绍该领域 , 在第3章描述了领域内的数据形式、该领域历史的简要概述、列出了通常遇到的主要挑战 , 并提出了使用表格数据进行深度学习的可能方法的统一分类法 。 第4章详细介绍了使用深度神经网络对表格数据进行建模的主要方法 。 第5章概述了使用深度神经网络生成表格数据 。 第6章概述了表格数据深层模型的解释机制 。 在第7章总结了该领域的状态并给出了未来的观点 。 第8章论文列出了一些开放型研究问题 。
感兴趣的读者可以参考论文原文了解更多研究细节 。
第一期:快速搭建基于Python和NVIDIATAOToolkit的深度学习训练环境
英伟达AI框架TAO(Train,Adapt,andoptimization)提供了一种更快、更简单的方法来加速培训 , 并快速创建高度精确、高性能、领域特定的人工智能模型 。
11月15日19:30-21:00 , 英伟达专家带来线上分享 , 将介绍:
NVIDIATAOToolkit的独到特性
快速部署NVIDIATAOToolkit
利用NVIDIATAOToolkit快速搭建深度学习训练环境
利用TAOToolkit快速训练部署目标检测模型
- text|《2021大数据产业年度创新技术突破》榜重磅发布丨金猿奖
- 酷睿处理器|关键数据出炉,京东比阿里差远了
- 财智干货|数智化发展任重道远,财务中台提升数据服务价值 | 大数据
- 央媒表态后,联想关键数据出炉,柳传志这回要扳回一局?
- 数据库|OPPO悄悄上新机,骁龙8核+5000mAh电池,256G仅售1599元
- 数据仓库|红米真我moto三款骁龙870手机对比:2000元以内,谁更值得买?
- 中文|爱数智慧CEO张晴晴:基于”情感“的人机交互,要从底层数据开始
- B费全场数据:2次射正打入2球,3次抢断、1次拦截
- iPhone|东芝NAS硬盘N300系列+ORICO硬盘柜=“数据保险柜”
- 数据库|丁磊致歉“鱼眼观察”作者并回应:已撤回删稿函