数据管理顶会VLDB EA&B最佳论文奖公布，SFU王健楠等人获奖( 二 ) 机器之心报道机器之心编辑部

出于实用目标，具体而言，团队今后的研究将从两方面入手：
不用黑箱模型，而是选择一些可解释的模型。可以尝试经典的ML模型，比如一些树模型，从而避开这个问题；用黑箱模型，但是要提高debug能力。比如该实验室的相关工作《Complaint-drivenTrainingDataDebuggingforQuery2.0》通过debug训练数据的方式，从而提升模型的效果。这篇论文已经发表在SIGMOD2020上，领域内也有很多这方面的工作。
文章图片
LearnedMethod工作流程。
获奖论文中也提到，基于ML的基数估计法在动态环境表现不佳的一个主要原因，是模型训练速度跟不上数据库的更新频率。如果模型训练速度足够快（训练成本也可以接受），基于ML的基数估计法在实际部署中会有多大的发挥空间？
团队表示，如果模型训练速度足够快，的确可以让一些ML的方法向实际部署迈进一大步，不过仍有其它的cost需要考虑，比如Inferencetime（推断时间）。以OLTP场景举例， OLTP往往会要求很快的查询响应时间，可能某应用要求查询响应时间低于100ms 。传统的基数估计方法可能只需要占用其中的1ms ，而现有方法可能直接就占了200ms 。这对用户而言是不能接受的。
同时，获取训练数据也有cost 。一些基于ML的基数估计方法需要查询的结果作为训练数据的标签，而在动态环境里，这些标签随时都会失效，所以获取足够多的新训练数据也可能花费很多时间。
在论文中，研究者也讨论了learnedmethods不work的情况，比如在一些简单直观的逻辑规则上，这些learnedmodels经常违反这些规则。具体不足如下：
所有新的learned估计都倾向于在更相关的数据上产生更大的误差；不同方法对于更倾斜的数据或域更大的数据有不同的反应，这可能是由于在选择模型、输入特征和损失函数方面的差异；研究者提出了针对基数估计器的五条规则，发现除了DeepDB以外的所有新learnedmodels都违反了这些规则；在新的learned估计器中使用的模型的不透明性，在可调试性、可解释性、可预测性和可重现性方面可能会带来麻烦。【数据管理顶会VLDB EA&B最佳论文奖公布，SFU王健楠等人获奖】此外，学术界DB研究还会存在一些挑战。一方面是数据规模，另一方面是很难与真实用户直接进行沟通。开源可以在一定程度上缓解这个挑战。 DataPrep(http://dataprep.ai)是该团队近两年领导的一个数据准备的开源项目，目前已经有近20万的下载量，得到了很多真实用户的需求反馈，并且也吸引一些业界的关注。
王健楠介绍，团队近期围绕的研究方向主要是增强ML的可信度，也做了一系列MLdebugging的工作，相关论文发表在SIGMOD2020 ， VLDB2021和VLDB2022 。在Benchmark方面，团队也已经构建了基数估计的Benchmark ，在Github上开源供大家使用：https://github.com/sfu-db/AreCELearnedYet 。

数据管理顶会VLDB EA&amp;B最佳论文奖公布，SFU王健楠等人获奖( 二 )

数据管理顶会VLDB EA&B最佳论文奖公布，SFU王健楠等人获奖( 二 )