90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?( 三 )
文章图片
上图为吴恩达解释了小数据集一致性的重要性
到底需要多少数据?
数据质量不可忽视 , 但数据量也是至关重要的 , 研究者必须有足够的数据支撑才能解决问题 。 深度网络具有低偏差、高方差特性 , 我们可以预见更多的数据可以解决方差问题 。 但是多少数据才够呢?目前这个问题还很难回答 , 不过我们可以认为拥有大量的数据是一种优势 , 但也不是必须的 。
如果你采用以数据为中心的方法 , 请记住以下几点:
确保在整个ML项目周期中数据保持一致;
数据标注保持一致;
要及时反馈结果;
进行错误分析;
消除噪声样本 。
那么 , 我们哪里可以找到高质量的数据集?这里推荐几个网站 , 首先是Kaggle:在Kaggle中 , 你会找到进行数据科学工作所需的所有代码和数据 , Kaggle拥有超过50,000个公共数据集和400,000个公共notebook , 可以快速完成任务 。
文章图片
其次是Datahub.io:Datahub是一个主要专注于商业和金融的数据集平台 。 许多数据集 , 例如国家、人口和地理边界列表 , 目前在DataHub上可用 。
文章图片
最后是GravitiOpenDatasets:Graviti是一个新的数据平台 , 主要为计算机视觉提供高质量的数据集 。 个人开发人员或组织可以轻松访问、共享和更好地管理开放数据 。
文章图片
- 芯片|天玑9000即将出场,骁龙8被批“破芯片”,高通不再一家独大
- 商超O2O鼻祖Instacart今年上市 能否撑起390亿美元估值
- 操作系统|曾卖90项专利给华为,放弃手机转向汽车行业,今占据全球80%市场
- 芯片|OPPO新机官宣:2月24日,全球发布,亮点“首发天玑9000”
- Python|不是哪款都值得买!两款12代酷睿游戏本点评:不用抢购必有原因
- 在2021年末|都是堆料的高端旗舰,一加10pro是哪些配置、功能点更胜一筹
- 除了华为,一个能“吃苹果”的友商都没有
- Z世代智能电视哪家强?前三名都是国货,海信为榜首
- 微信|微信最精简版来了,连朋友圈都没了
- 消费|解锁热“雪”新姿势!魔都冰雪运动好去处,在商场内感受速度与激情!