业务|10000字全流程讲解完整数据分析( 四 )
用户数据和行为数据通常可以从第三方数据工具,如友盟、Google Analytics 直接获取,业务数据一般要内部建设。
文章插图
今天重点讲业务数据搭建完整过程,以阿里云的Quick BI为例。
在整个数据分析的框架中,分为五大层次,依次是:数据生成、获取数据、数据建模、数据分析和数据应用。
文章插图
1. 数据生成还是以支付业务为例,用户选择支付方式完成支付后,落库核心的两张业务表:订单表和交易表。一个订单会对应多笔交易(每选择一种支付方式生成一笔交易,一笔订单可以使用多个支付方式尝试支付),其实还会产生其他表,比如收货地址表等。
文章插图
2. 获取数据通常使用第三方工具如ETL将业务系统的数据经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库的过程,数据呈现在BI的数据源。
文章插图
3. 数据建模所有数据进到数仓以后,需要根据实际想要看的业务数据进行数据建模,建模后的数据呈现在数据集。数据集作为数据源和可视化展示的中间环节,承接数据源的输入,并为可视化展示输出数据表。
文章插图
4. 构建数据模型数据建模是什么含义呢?
底层的业务数据表其实很多,几十张上百张都有,但到了业务数据分析阶段,当需要分析的数据存储在不同的表,可以通过数据关联,把多个表连接起来,形成模型进行数据分析。
比如上述的业务底层订单表到了数据分析阶段衍生的订单表字段发生变化,name 和 city 是从业务地址表取来的数据。
总的来说,数据模型是完全面向数据分析的业务场景形成的新表。以支付业务为例,我构建的数据模型有:用户表、订单表和交易表。
文章插图
5. 设计维度和度量指标对数据字段可以进行下一步分类:
在统计学中,单一数据字段可以被分为离散和连续。离散通常是维度,比如城市名称、用户名字,特征是有限数量的值;连续通常是度量,比如销量、利润或成功率,特征是不可罗列,可能为任一数值。维度和度量中有许多灰色区域,比如金额,可以做维度,也可以做度量。
在上述订单表中,device、city 等是维度,对order_id 计数的总订单数、对status = success 计数的成功订单数是度量。
度量可以再分原子度量和派生度量。
原子度量指从维度里直接获取到,上表中的总订单数和成功订单数。
派生度量并不能直接从数据表中获取,而需要基于已有数据进行加工处理得到,上表中的订单成功率是成功订单数/总订单数得到。
6. 数据分析有了维度和度量的概念后,接着引入聚合概念。对于数据分析来说,往往关心的并不是最底层一行一行的的明细数据,更注重分析数据的角度,关心的是数据的总体特征。
聚合,简单讲就是数据源里的多行数据按照一定的标准计算成一个数据,不管数据集里有1行还是多行,视图里的数据都是聚合后的结果,一行数据也是要聚合的,当然一行数据聚合的结果是一样的。实际上,维度为数据聚合提供依据,而度量是依据维度聚合得到的结果。
配置了聚合计算的计算字段,将根据配置的维度自动进行聚合运算。
- 网购|男子网购冰墩墩拆开全是假货:破绽百出
- emc|达实智能回应涨停:数据中心节能业务早有涉及曾有项目PUE值小于1.25
- 充电带|比手机还先进!全国首条电动自行车无线充电带落地:比有线充得快
- 赵卫星|字节跳动退出证券业务?旗下海豚APP易主
- CPU处理器|疫情不断:苏州和舰、京隆工厂全面停产!影响难以估量
- AMD|全球首发天玑9000!高管预热年度旗舰:续航有惊喜
- 供应商|全球汽车芯片2021年出货量524亿个
- 中国联通|7天前华人女高管出手,完成全球最大半导体交易,金额达500亿美元
- 水源|字节跳动大力教育四大业务正式停运,推出教师服务平台“潭水源”
- 阿里巴巴|东数西算全面爆火 概念股大面积涨停 阿里、腾讯、字节、快手已大规模部署