大数据|大数据开发与管理架构完整剖析
编辑导语:随着通信技术的发展,互联网网民规模呈现出井喷式的增长,在此背景下,通过大数据管理,挖掘其中的价值,实现用户更好的体验与服务,成为了当下研究的热点之一。本文对大数据开发与管理架构进行了详细的剖析,希望对你有所启发。
文章插图
一、为什么要进行大数据开发与管理在通信技术的大力发展下,互联网、终端数字设备与传感器不断普及,进而呈现用户数量稳步增长,数据量井喷型增长。2021年中国互联网统计发展报告显示全国网民规模达10.11亿,数字化应用日渐丰富,涉及生活服务、文娱内容、医疗教育等领域,预计2025年全球每天产生的数据量将达到491EB。
在此背景下,通过管理大数据,挖掘其中的价值为用户提供更好的体验与服务成为了当下的热门研究点之一。
用户通过线上/线下行为产生的数据推动功能服务优化,更好的服务又反馈服务于用户,例如:
- 通过采集用户消费记录提取特征,计算与用户偏好匹配度更高的商品进行推荐;
- 通过分析用户群体行为特征进行未来行为发展预测等。
- 数据来源不同、数据类型众多
- 数据质量参差不齐
- 数据可能重复或缺失
- 不同的服务需要的数据不同,如何提供数据支撑使成本最低
- 海量数据耗费存储资源
- ……
文章插图
为了解决这类问题,需要构建“中间服务”——大数据开发及管理,通过提供统一的数据采集、处理与管理服务使数据达到“高质量”“高效率”“轻体量”的状态。
二、大数据开发与管理分几步大数据开发与管理平台可分为5大模块:数据采集、整合计算、数据管理、数据安全与数据应用。
文章插图
1. 数据采集目的:将多源异构数据汇聚至数据湖中,等待下一步处理。
要做什么:
- 日志数据:对于日志数据可根据未来的分析需求与留痕需求进行埋点采集,通过使用User Track、Aplus.JS或一些自动化埋点工具结合相应规范进行采集。
- 其他数据库:对于其他数据库来源的数据需要根据对方数据库的参数进行配置建立采集任务,同时需要配置存储库表参数。
- 意外处理:对于以上两类数据,在采集过程中可能存在一些意外情况需要处理,例如:一些短时间内来自同一IP的高频访问可能是网络攻击,不能视为正常操作采集日志;在零点左右采集日志时可能发生数据漂移的情况;数据为null(无效值)需要剔除等。在图中列举了一些意外处理情况。
要做什么:
- 模型设计:根据上层应用/分析需求进行数据模型设计,这里涉及三个维度的模型:维表(针对某一事物的描述,例如:会员数据、商品数据、店铺数据)、事实表(某一业务过程的描述,例如:商品收藏数据、下单数据)、指标数据(基于维表或事实表中的原子指标产生的派生指标,结合了时间周期、限定词等描述信息)。模型设计不仅要定义每个表中的字段还需要定义字段规则、更新时间等参数。
- 数据清洗/质量检测:根据字段映射关系与模型设计中的字段规则对数据进行清洗,根据清洗情况出具相应的质量检测报告。
- 大家平常有没有觉得自己用手机的主摄拍出出彩的照片特别难?我可以说并不是你的问题|努比亚z40pro手机摄像头的焦段不适合你
- Python|小米开启春季大促,从6299降到3849元,12GB+512GB
- 英特尔|开年“机”荒?OPPO Reno这款超大杯很值,处理器是骁龙870
- |中国三大运营商局面打破!中国广电强势加入通讯市场,号段已公布
- |发布不到两个月下跌780元,12GB+256GB,2K屏新旗舰售价大跳水
- 智能手机|2021年欧洲增长最快的智能手机品牌:中国realme暴增548%成最大黑马
- 美女|美女将照片做成NFT大卖 两天超过了二千单交易
- 汇天网络|汇天网络与华为数字能源联合打造全球规模最大零碳数据中心
- |如何通过数据找到创业的“上帝视角”?
- 大家都知道|苹果日本率先推出36期免息分期服务