访谈|关于数据采集:你需要了解这些

导读:通过上一系列《10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系》,我们了解了目前较为流行的几种发生在企业业务活动中数据存储方式的区别与联系。有了“锅碗瓢盆”,想要做出色香味俱全的“大餐”,食材也是不可或缺的,所以我们就需要进行数据采集。
访谈|关于数据采集:你需要了解这些
文章插图
一、数据采集的必要性数据采集是数据分析挖掘的根基:
数据分析与挖掘过程中比较基础且重要的一个环节是数据采集,再好的特征选取,建模算法,没有了优质的元数据,也会“巧妇难为无米之炊”。
采集的数据决定了数据分析挖掘的上限:
经验告诉我们怎样从历史数据的展现和分析过程中得到有用知识,不管你是通过报表或多维分析得到企业各领域指标相关性,还是通过挖掘模型的实施来根据历史数据预测企业未来发展,这一切都是基于企业历史数据的。没有数据质量基础的保证,展现得多华丽的走势图表都是垃圾。
如下图所示,garbage in , garbage out(垃圾进,垃圾出),指如果将错误的、无意义的数据输入计算机系统,计算机自然也一定会输出错误、无意义的结果。(该谚语在数据分析领域也同样适用)
访谈|关于数据采集:你需要了解这些
文章插图
garbage in garbage out(垃圾进垃圾出)
二、数据采集方式数据采集方式按照线上采集,线下采集两大类进行分类,下面对于每种采集方式及相关技术进行简单的介绍。
访谈|关于数据采集:你需要了解这些
文章插图
1. 线上采集1)开放数据
开放数据指的是互联网中面向所有人公开的数据,其中包括面向特定行业公开的数据,各级政府公开的数据以及网页中相关的内容数据,例如下图所示为北京市公共数据开放平台。
访谈|关于数据采集:你需要了解这些
文章插图
获取开放类数据,我们可以使用爬虫技术,这里简单介绍一下爬虫技术。
爬虫技术是一种可以使开发人员自动化,系统化收集互联网上相关数据的技术,爬虫不是内容的生产者,而是内容的搬运者。关于爬虫技术的各类学习资料在网上可以说是“汗牛充栋”,笔者在这里就不展开说了,但是这里关于爬虫要讲的就是爬虫的安全问题,一定要遵守相关法律,切记不要触碰红线。
a. 个人信息,商业秘密与国家秘密是数据爬取的红线。
b. 遵守职业道德,控制爬虫访问频次,不要干扰被爬方的正常业务活动。
c. 遵守robots协议,做到什么能爬,什么不能爬。
2)第三方平台数据
比如说开发者想获取相关各类金融数据,除了可以利用爬虫技术外,我们可以通过某第三方平台提供的API接口来调取相关数据,例如下图所示为Toshare大数据开放平台,开发者可以获取各类金融数据。
访谈|关于数据采集:你需要了解这些
文章插图
访谈|关于数据采集:你需要了解这些
文章插图
笔者曾接到过这样一个任务,获取某市所有的禁止机动车左转,禁止机动车右转,禁止机动车掉头的路段,在没有条件获取准确的数据时,我们可以通过高德或百度的地图开放平台的API接口,分别在路口处设置起讫点,通过对比机动车与步行的路径规划距离来分析该路口是否禁左,禁右,禁掉头,如下图所示为百度开放平台,我们可以在这里通过API接口,完成各类数据采集。
对应的功能有相应的服务文档讲解如何使用,大家有兴趣可以打开网址进行尝试。
访谈|关于数据采集:你需要了解这些