当toB产品经理遇到数据分析( 二 ) 对于我来讲

第三步:按照第二步的列表去筛选需采集的信源和数据
第四步:在已采集的数据中再次精加工，得到有价值的基础数据
*商品类的分析一定会需要商品售卖的数据、商品的描述、商品的口碑、品牌的口碑等等，所以电商数据、评论数据、口碑数据、微博数据这些不可或缺
*事件类的分析一定会有官媒数据、民众讨论的数据等等，所以，资讯数据、微博、贴吧、论坛这些数据不可或缺
*行业类的分析一定会有行业专业网站、国家政策、行业论坛等等，所以，需要找的就是专业性论坛、专业网站、官方站点、可能还需要toB站点的相关数据
4.从信源得到数据
收集信源我一般会用火狐，因为会有好用的插件。注：在用Python爬虫时可以根据可以根据网址的规律提取连接

文章图片
火狐的插件
信源可以根据列表页和正文页获取，信源的获取过程中有以下情形：
正常的信源页，我们从源码中就可以看到可以采集的正文页链接，非常好提取
有嵌套的信源页，这种直接看源码是看不到正文页的，需要我们找到正确的列表页，比如下图的某政府网站，需要点开真正的列表

文章图片
信源页中的正文页链接是需要拼接的
信源页中有多条信息，需要从中直接提取每条数据的字段的（例如:搜索引擎页面)
需要登录的
其他一些做特殊配置的
其实可以思考一下，按照网站类型可以将以下情景的信源划分为哪些维度，并给出合适的数据（网站）来源
1、分析天津市针对人工智能专业博士的需求情况
2、分析互联网上针对综艺节目《乘风破浪的姐姐》节目评价及该节目的受众人群
以下只是简单提供一种思路
第一个场景按照网站类型可以将信源划分为判决文书、电商类、资讯类、行政处罚、企业工商注册数据、百度经验、企业类、法院类、百科等这些维度。
1、第一个情景分析天津市针对人工智能专业博士的需求情况：
【当toB产品经理遇到数据分析】首先组合几个维度分析，所属地域限定在北京，行业类型限定为人工智能，信息发布者为PGC内容，网站类型为行业专业网站、国家政策和行业论坛，进一步定位有价值的信源，就要从专业性论坛、专业网站、官方站点、toB站点获取相关数据
2、第二个情景分析互联网上针对综艺节目《乘风破浪的姐姐》节目评价及该节目的受众人群：
首先组合几个维度分析，行业类型定位在娱乐和影视，信息发布者UGC和PGC都要分析，因为属于事件类的分析，主要分析节目评价及该节目的受众人群，所以就要有官媒数据、民众讨论的数据、民众自身年龄的数据等，所以网站类型要从资讯和社交两个方面分析，例如从《乘风破浪的姐姐》官方微博、贴吧、论坛找出这些数据
三、数据工程（数据处理）
5.数据结构化：
将数据整理成能看的结构

文章图片
数据结构化
传播力分析：标题、出处、发布时间
人物画像：微博人物字段
消费者人物画像：评论字段
汽车指标：汽车网站字段
电商人物画像：消费习惯
6.数据处理
其实上学的时候也学过很多数据处理的知识，有各种插值法，回归，聚类等方式处理数据，但凡有一点在脑子里，我也不至于重新学。不过基本的我还是印象深刻的：