数据管理顶会VLDB EA&B最佳论文奖公布,SFU王健楠等人获奖( 二 )


出于实用目标 , 具体而言 , 团队今后的研究将从两方面入手:
不用黑箱模型 , 而是选择一些可解释的模型 。 可以尝试经典的ML模型 , 比如一些树模型 , 从而避开这个问题;用黑箱模型 , 但是要提高debug能力 。 比如该实验室的相关工作《Complaint-drivenTrainingDataDebuggingforQuery2.0》通过debug训练数据的方式 , 从而提升模型的效果 。 这篇论文已经发表在SIGMOD2020上 , 领域内也有很多这方面的工作 。 数据管理顶会VLDB EA&B最佳论文奖公布,SFU王健楠等人获奖
文章图片
LearnedMethod工作流程 。
获奖论文中也提到 , 基于ML的基数估计法在动态环境表现不佳的一个主要原因 , 是模型训练速度跟不上数据库的更新频率 。 如果模型训练速度足够快(训练成本也可以接受) , 基于ML的基数估计法在实际部署中会有多大的发挥空间?
团队表示 , 如果模型训练速度足够快 , 的确可以让一些ML的方法向实际部署迈进一大步 , 不过仍有其它的cost需要考虑 , 比如Inferencetime(推断时间) 。 以OLTP场景举例 , OLTP往往会要求很快的查询响应时间 , 可能某应用要求查询响应时间低于100ms 。 传统的基数估计方法可能只需要占用其中的1ms , 而现有方法可能直接就占了200ms 。 这对用户而言是不能接受的 。
同时 , 获取训练数据也有cost 。 一些基于ML的基数估计方法需要查询的结果作为训练数据的标签 , 而在动态环境里 , 这些标签随时都会失效 , 所以获取足够多的新训练数据也可能花费很多时间 。
在论文中 , 研究者也讨论了learnedmethods不work的情况 , 比如在一些简单直观的逻辑规则上 , 这些learnedmodels经常违反这些规则 。 具体不足如下:
所有新的learned估计都倾向于在更相关的数据上产生更大的误差;不同方法对于更倾斜的数据或域更大的数据有不同的反应 , 这可能是由于在选择模型、输入特征和损失函数方面的差异;研究者提出了针对基数估计器的五条规则 , 发现除了DeepDB以外的所有新learnedmodels都违反了这些规则;在新的learned估计器中使用的模型的不透明性 , 在可调试性、可解释性、可预测性和可重现性方面可能会带来麻烦 。 【数据管理顶会VLDB EA&B最佳论文奖公布,SFU王健楠等人获奖】此外 , 学术界DB研究还会存在一些挑战 。 一方面是数据规模 , 另一方面是很难与真实用户直接进行沟通 。 开源可以在一定程度上缓解这个挑战 。 DataPrep(http://dataprep.ai)是该团队近两年领导的一个数据准备的开源项目 , 目前已经有近20万的下载量 , 得到了很多真实用户的需求反馈 , 并且也吸引一些业界的关注 。
王健楠介绍 , 团队近期围绕的研究方向主要是增强ML的可信度 , 也做了一系列MLdebugging的工作 , 相关论文发表在SIGMOD2020 , VLDB2021和VLDB2022 。 在Benchmark方面 , 团队也已经构建了基数估计的Benchmark , 在Github上开源供大家使用:https://github.com/sfu-db/AreCELearnedYet 。