数据分析师|量化设计价值(三):如何创建体系化的监控系统( 五 )
当一个度量(Measure)的数据段与一个或多个特定维度(Dimension)之间互相联系了起来,度量就成为了指标。
例如,同样的一份关于【访问用户人数】这一度量,可以根据关联的时间维度的不同,创建DUV和MUV等多个不同的指标。
如何创建一个有效的指标,结合笔者的工作经验,下面给出三点建议。
1)为一个指标设想一个高级概念
首先指标的名称需要客观,要让人乍一听就能大概会意,例如:「加购商品操作每日点击次数」。
而如果您定义的是类似:“软件上手度”,这种概念比较晦涩、在业内又没有约定俗成的定义的指标,可能需要重新考虑概念是否恰当。
每周访问站点的用户总数/ 每日访问站点的用户数/ 每日访问站点的新手用户数……这些指标既相互独立,但反应的又是同一件事的客观熟悉的时候,我们可以把这些详细的指标统一用一个高级的指标概念来做一个归纳,例如“站点访问用户数”。
文章插图
2)检查并确定定义指标的细节
确定了指标的基础概念后,需要检查一遍指标的细节。
例如,“订单生命周期”这个指标的定义中,生命周期是指一个订单从创建到最后通过审核耗时,而与其关联的维度有时间、订单类型等。
需要强调的是,一个订单可能会存在:创建时间、通过时间,这两种不同的时间戳。而在“订单生命周期”这个指标我们需要关联的时间维度是【通过时间】。如果关联是【创建时间】,则会得到另外一种完全不同的生命周期计算方式。
文章插图
3)将测量到的度量数据,通过计算总结为一个指标
通过埋点收集到的是大量的数据,是一个巨大的整体,而指标则是描述总体特性的参数。
而把原始数据组织并总结成更易处理的形式的技术叫做描述性统计,一种最常见的方法是通过计算平均数的方法总结一组数据。
这些描述总体特性的参数中又存在不同的用途,有的用来描述频数分布,有的用来描述集中趋势:平均数,众数、中位数,有的用来描述变异性:四分卫距、方差。我们需要根据自己的用途选择合适的统计方式来构建指标。
文章插图
根据统计方法的不同,常见的指标类型有以下几种,他们拥有不同的分布类型和方差的计算公式
- 【 计数 Count 】
- 【 概率 Probability】
- 【 平均数 Average 】
- 【 中位数(或其它位数)Percentile】
- 【 比率 Rate 】
- 【 一般比例 Ratio 】
文章插图
五、可视化 Visualize烹饪好食材之后,接下来的工作就是摆盘与上菜。优秀的摆盘可以让料理更加精致和高级,优秀的数据可视化可以帮助我们更好地观察与分析数据,反之糟糕的数据可视化可能会让我们丢失很多重要信息。
1. Why visual ?为什么一定要使用看板(图表)来观察和分析数据?仅关注几个关键指标的数据是否就已经足够?
使用看板对指标进行观察和分析的意义在于:相比单纯的数字,图表可以携带更多的展示维度(大小、长度、颜色、面积……),能帮助我们多维度地观察数据、避免疏漏。
例如,安斯库姆四重奏(Anscombe’s quartet)是四组基本的统计特性一致的数据,但由它们绘制出的图表则截然不同。如果仅依靠基本的统计特性来观察数据,我们很容易忽略一些重要信息。
- text|《2021大数据产业年度创新技术突破》榜重磅发布丨金猿奖
- 酷睿处理器|关键数据出炉,京东比阿里差远了
- 财智干货|数智化发展任重道远,财务中台提升数据服务价值 | 大数据
- 央媒表态后,联想关键数据出炉,柳传志这回要扳回一局?
- 数据库|OPPO悄悄上新机,骁龙8核+5000mAh电池,256G仅售1599元
- 数据仓库|红米真我moto三款骁龙870手机对比:2000元以内,谁更值得买?
- 中文|爱数智慧CEO张晴晴:基于”情感“的人机交互,要从底层数据开始
- B费全场数据:2次射正打入2球,3次抢断、1次拦截
- iPhone|东芝NAS硬盘N300系列+ORICO硬盘柜=“数据保险柜”
- 数据库|丁磊致歉“鱼眼观察”作者并回应:已撤回删稿函