数据管理顶会VLDB EA&B最佳论文奖公布,SFU王健楠等人获奖
机器之心报道
机器之心编辑部
刚刚 , 数据管理顶会VLDB公布了今年的EA&B最佳论文奖项 , 本次的获奖论文为西蒙弗雷泽大学和腾讯合作的《AreWeReadyforLearnedCardinalityEstimation(通过机器学习的基数估计技术成熟了吗?)》 。
文章图片
VLDB是数据管理领域两大顶会之一 , 面向数据管理和数据库研究人员、供应商、从业人员、应用程序开发人员等群体 。 VLDB2021大会以线上、线下两种方式举行 , 于当地时间8月16日在丹麦哥本哈根开幕 。 EA&B(Experiment,AnalysisandBenchmark , 实验、分析与基准)最佳论文奖每年颁发一次 。
文章图片
论文地址:https://arxiv.org/pdf/2012.06743.pdf项目地址:https://Github.com/sfu-db/AreCELearnedYet基数估计是查询优化中一个基本但长期未解决的问题 。 在获奖的这篇论文中 , 研究者提出了一个前瞻性的问题:「我们是否准备好在生产中部署这些learned的基数模型?」研究包括三个主要部分:
首先 , 关注静态环境(即没有数据更新)并在统一的工作负载设置下 , 对四个真实世界的数据集比较了五种新的learnedmethods和九种传统方法 。 结果表明 , learnedmodels确实比传统方法更准确 , 但是它们往往需要较高的训练和推理成本;其次 , 探索这些learnedmodels是否适用于动态环境(例如频繁的数据更新) 。 研究发现 , 它们无法跟上快速数据更新并返回由于不同原因造成的重要错误 。 对于不太频繁的更新 , 它们可以表现得更好 , 但它们之间没有明确的赢家;第三 , 更深入地研究了learnedmodels , 并探索它们何时可能出错 。 结果表明 , learnedmethods的性能可以很大程度上受到变化的影响 , 比如偏斜或领域大小 。 更重要的是 , 其行为很难解释 , 而且常常难以预测 。
文章图片
这篇论文的合著者主要来自西蒙弗雷泽大学王健楠团队 。 王健楠是SFU计算机系的副教授 , 2013年在清华大学获得博士学位 , 2013年-2015年间在加州大学伯克利分校AMPLab进行博士后阶段的研究工作 。 所领导开发的数据准备工具dataprep.ai目前已经有近20万的下载量 。 他所获奖励包括:加拿大计算机协会授予的杰出青年奖(2020) , IEEE授予的数据工程新星奖(2018) , ACMSIGMOD最佳演示奖(2016) , CCF最佳博士论文奖(2013) , GooglePhDFellowship(2011) 。 他是VLDB2023大会共同主席 , VLDB2021副主编 。
王健楠表示:「learnedmethods是目前数据库很火的领域 , 但是目前的研究工作太关心模型的准确度了 , 而没有考虑其它把他部署到实际系统会遇到的挑战 。 我们这篇论文其实想给这个领域的研究中心扭转过来 , 让大家更多的关心如何降低模型的cost , 以及让模型更可信 。 」
MLforDB(ML4DB)是近年来很热门的领域 , 在今年的VLDB会议上 , 该研究方向分别有1个Keynote、1个Workshop、1个Tutorial和数篇相关论文 。 但相对于其他领域来说 , ML4DB是一个新领域 , 基本是从SIGMOD2018的MIT论文《TheCaseforLearnedIndexStructures》开始受到关注的 。 从研究现状来看 , 通过机器学习的基数估计方法现阶段还无法投入实用 。
图灵奖得主DavidPatterson曾说过「ForBetterorWorse,BenchmarksShapeaField.」ImageNet是帮助图片识别问题前进了一大步的benchmark , 目前ML4DB也在等待这样的benchmark 。 「我们的论文沿这个方向走出了第一步 , 这可能是我们的论文获奖的一个很重要的原因 。 」王健楠表示 。
研究团队介绍说 , 虽然目前无法直接投入使用 , 但是这一领域的研究非常有潜力 , 尤其是在准确率方面可以比传统方法取得更优越的效果 。 而这篇论文可以帮助大家指出一些更有潜力的「升温」方向 。 新技术刚出现的时候 , 往往都伴随巨大的优势与劣势 , 这才使得完善劣势的部分变得重要 。 比如自动驾驶的可靠性问题让它在目前阶段很难实用 , 但是自动驾驶节省人力的优势 , 驱使大家去努力解决它的劣势 , 所以关于自动驾驶技术的研究才能一直「升温」 。 ML4DB也是类似的 , 机器学习的方法展现了很多优势 , 但是同时也有劣势 , 这才会让相关研究「升温」 。
- 智能手表|健康管家华为WATCH 3智能手表,用科学数据管理身材
- 轻量化|大华股份轻量化AI技术斩获CVPR视觉顶会ISP赛道冠军
- 中科院|让AI学会“哦买尬,买它!”,清北中科院争角逐顶会Workshop竞赛
- 12月15日|大鹏新区政务服务数据管理局荣获“2021中国数字政府卓越成就”奖
- 横扫6个SOTA,谷歌行为克隆算法登CoRL顶会,机器人干活10倍速
- 智东西内参|人工智能顶会真相!深度学习热度高,论文录取率创新低 | ai
- UST|Ataccama与UST合作改变企业数据管理
- 天津铁塔公司|天津市委网信办、天津市大数据管理中心与天津铁塔公司签署战略合作协议
- 字节获NLP顶会最高奖;三星重登半导体霸主图灵周报
- 编者按:11月30日|工业和信息化部电子第五研究所所长陈立辉:数据管理引领两化融合贯标 加速赋能制造业数字化转型