内核|大格局!第四范式要在一年内开源95%核心技术
机器之心原创
机器之心编辑部
最先落地 AutoML 的那家公司,现在喊出了开源。
自动机器学习 AutoML 技术,可以把特征提取、模型选择、参数调节等机器学习的复杂过程实现自动化。这种能够大幅降低 AI 应用门槛的工具,是目前人工智能业界炙手可热的方向。
第四范式成立之初就开始投入力量研究 AutoML 技术,现在又把自动化 AI 的能力拓展到 AI 应用的大多数环节。
在 6 月 23 日的年度发布会上,第四范式的 AI 操作系统 AIOS 升级到了 2.0 版。更引人关注的是,这家公司还计划在一年内将 95% 核心技术开源出来。
「我们把最核心的数据和算力技术开源给技术社区,它们是开发者最需要的东西。」第四范式联合创始人、首席研究科学家陈雨强说道。
文章插图
第四范式技术副总裁郑曌等人在发布会上宣布了 AIOS 核心技术的开源。
从零开始,构建 AI 数据引擎
首先是机器学习数据库 OpenMLDB。在 AI 时代,机器学习模型不断高频次演进,这意味着数据供给的重要性不断提升。但即使是在大型科技公司里,我们仍然能看到 SQL 数据处理 10 小时,上线排查 6 个月这样的情况。
「机器学习技术实现理性和瞬时高效的推理判断,但不论事务型数据库、分析型数据库还是传统数仓,在执行这类机器学习任务时都无法保障正确的数据供给」在发布会当日的技术分论坛上,第四范式资深架构师王太泽说道,「由于不是面向机器学习的设计,传统的数据库无法完全覆盖从离线、在线到数据反馈的全流程,对于机器学习应用来说效率较低。」
第四范式帮助超过 120 个场景完成了数据的开发和矫正,这让他们的工程师总结出供给正确数据的解法。
与Hadoop、Oracle、MySQL 等目前流行的数据库相比,第四范式提出的OpenMLDB,定位是为AI 而生的机器学习数据库,而这也是目前行业内的空白。
文章插图
OpenMLDB 解决了 3 个机器学习的核心数据问题:
首先是离线在线不一致,OpenMLDB 通过统一的数据存储引擎避免了跨数据库的信息交换。另一方面,通过统一的数据计算引擎,这套系统使离线和在线使用同一套计算逻辑,确保了总结规律和线索演算时思维方式的一致。
文章插图
其次是时序正确性:在超过一半的场景中,由于传统的数据库系统无区别对待历史经验和未知信息,数据科学家在数据开发过程中产生了时序泄露,在进行规律总结的时候使用到了不该使用、来自于未来的「穿越数据」。OpenMLDB 通过使用自动时序拼接语法和时序泄露检测模块,避免了错误的数据使用。
最后是闭环完整性,机器学习需要将线索演算以及业务推理判断正确与否的反馈沉淀成经验和知识,这需要数据库系统能够具备 将线索推演,以及判断的反馈,进行正确关联的能力。OpenMLDB 通过对线索与反馈的自动拼接检测与自动关联,保障了唯一拼接标识,避免了数据拼接错位的问题。
在从传统数据库系统切换到 OpenMLDB 后,开发过程的数据正确性得到了保障。除了性能上的优化外, OpenMLDB 在使用上也很方便,它支持标准 JDBC、Restfull 和 SQL 接口。
「MLDB 是我们的核心能力。在机器学习数据库上,我们的技术是非常领先的,」陈雨强表示。在一些 AI 决策任务中,使用 OpenMLDB 的开发效率可以提升多达 8 倍,相比传统数据库进行线上实时特征计算时,使用 OpenMLDB 能够 3 到 10 倍的性能提升。
- 苹果|库克压力确实大,在众多国产厂家对标下,iPhone13迎来“真香价”!
- text|《2021大数据产业年度创新技术突破》榜重磅发布丨金猿奖
- 知乎|电商达人迎来补税大潮,知乎带货第一人,被通知补税34万!
- 三星|试图挽回中国市场,国际大厂不断调价,从高端机皇跌到传统旗舰价
- 京东|适合过年送长辈的数码好物,好用不贵+大牌保障,最后一个太实用
- m都是大片!微软 Skype 支持将必应 Bing 图片设为通话虚拟背景
- 大屏|尺寸直追笔记本 曝国产厂商将推出高刷大屏旗舰平板
- PSVR|Resolution Games将大力支持开发PSVR 2游戏
- 华为鸿蒙系统|华为偷偷上架新机,鸿蒙系统+5000mAh大电池,仅售1399元
- 小米科技|RTX3060的性能到底如何?相比RTX2060提升有多大?