90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?( 三 )


90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?
文章图片
上图为吴恩达解释了小数据集一致性的重要性
到底需要多少数据?
数据质量不可忽视 , 但数据量也是至关重要的 , 研究者必须有足够的数据支撑才能解决问题 。 深度网络具有低偏差、高方差特性 , 我们可以预见更多的数据可以解决方差问题 。 但是多少数据才够呢?目前这个问题还很难回答 , 不过我们可以认为拥有大量的数据是一种优势 , 但也不是必须的 。
如果你采用以数据为中心的方法 , 请记住以下几点:
确保在整个ML项目周期中数据保持一致;
数据标注保持一致;
要及时反馈结果;
进行错误分析;
消除噪声样本 。
那么 , 我们哪里可以找到高质量的数据集?这里推荐几个网站 , 首先是Kaggle:在Kaggle中 , 你会找到进行数据科学工作所需的所有代码和数据 , Kaggle拥有超过50,000个公共数据集和400,000个公共notebook , 可以快速完成任务 。
90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?
文章图片
其次是Datahub.io:Datahub是一个主要专注于商业和金融的数据集平台 。 许多数据集 , 例如国家、人口和地理边界列表 , 目前在DataHub上可用 。
90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?
文章图片
最后是GravitiOpenDatasets:Graviti是一个新的数据平台 , 主要为计算机视觉提供高质量的数据集 。 个人开发人员或组织可以轻松访问、共享和更好地管理开放数据 。
90%论文都是以模型为中心,AI领域,数据和模型到底哪个重要?
文章图片