当toB产品经理遇到数据分析( 二 )


第三步:按照第二步的列表去筛选需采集的信源和数据
第四步:在已采集的数据中再次精加工 , 得到有价值的基础数据
*商品类的分析一定会需要商品售卖的数据、商品的描述、商品的口碑、品牌的口碑等等 , 所以电商数据、评论数据、口碑数据、微博数据这些不可或缺
*事件类的分析一定会有官媒数据、民众讨论的数据等等 , 所以 , 资讯数据、微博、贴吧、论坛这些数据不可或缺
*行业类的分析一定会有行业专业网站、国家政策、行业论坛等等 , 所以 , 需要找的就是专业性论坛、专业网站、官方站点、可能还需要toB站点的相关数据
4.从信源得到数据
收集信源我一般会用火狐 , 因为会有好用的插件 。 注:在用Python爬虫时可以根据可以根据网址的规律提取连接
当toB产品经理遇到数据分析
文章图片
火狐的插件
信源可以根据列表页和正文页获取 , 信源的获取过程中有以下情形:
正常的信源页 , 我们从源码中就可以看到可以采集的正文页链接 , 非常好提取
有嵌套的信源页 , 这种直接看源码是看不到正文页的 , 需要我们找到正确的列表页 , 比如下图的某政府网站 , 需要点开真正的列表
当toB产品经理遇到数据分析
文章图片
信源页中的正文页链接是需要拼接的
信源页中有多条信息 , 需要从中直接提取每条数据的字段的(例如:搜索引擎页面)
需要登录的
其他一些做特殊配置的
其实可以思考一下 , 按照网站类型可以将以下情景的信源划分为哪些维度 , 并给出合适的数据(网站)来源
1、分析天津市针对人工智能专业博士的需求情况
2、分析互联网上针对综艺节目《乘风破浪的姐姐》节目评价及该节目的受众人群
以下只是简单提供一种思路
第一个场景按照网站类型可以将信源划分为判决文书、电商类、资讯类、行政处罚、企业工商注册数据、百度经验、企业类、法院类、百科等这些维度 。
1、第一个情景分析天津市针对人工智能专业博士的需求情况:
当toB产品经理遇到数据分析】首先组合几个维度分析 , 所属地域限定在北京 , 行业类型限定为人工智能 , 信息发布者为PGC内容 , 网站类型为行业专业网站、国家政策和行业论坛 , 进一步定位有价值的信源 , 就要从专业性论坛、专业网站、官方站点、toB站点获取相关数据
2、第二个情景分析互联网上针对综艺节目《乘风破浪的姐姐》节目评价及该节目的受众人群:
首先组合几个维度分析 , 行业类型定位在娱乐和影视 , 信息发布者UGC和PGC都要分析 , 因为属于事件类的分析 , 主要分析节目评价及该节目的受众人群 , 所以就要有官媒数据、民众讨论的数据、民众自身年龄的数据等 , 所以网站类型要从资讯和社交两个方面分析 , 例如从《乘风破浪的姐姐》官方微博、贴吧、论坛找出这些数据
三、数据工程(数据处理)
5.数据结构化:
将数据整理成能看的结构
当toB产品经理遇到数据分析
文章图片
数据结构化
传播力分析:标题、出处、发布时间
人物画像:微博人物字段
消费者人物画像:评论字段
汽车指标:汽车网站字段
电商人物画像:消费习惯
6.数据处理
其实上学的时候也学过很多数据处理的知识 , 有各种插值法 , 回归 , 聚类等方式处理数据 , 但凡有一点在脑子里 , 我也不至于重新学 。 不过基本的我还是印象深刻的: