体系课-大数据工程师2022|完结无秘( 二 )
文章图片
文章图片
2、数据治理层及治理策略
文章图片
政府信息化发展大致经历了初期的烟囱式系统建设、中期的集成式系统建设和后期的数据管理式系统建设三个大的阶段 , 可以说是一个先建设后治理的过程 。 数据治理内容包括:组织体系、标准体系、流程体系、评价体系、技术体系、元数据管理、数据标准管理、主数据管理、数据质量管理、数据安全管理等 。
文章图片
文章图片
3、数据预处理(ETL)及处理策略
文章图片
数据预处理包含对资源库的结构化、非结构化、半结构化数据进行处理等 , 数据处理方式包括数据的抽取、清洗转换、加载到数据主题库、专题库的自动或半自动过程 , 目的是将资源库中分散、零乱、标准不统一的数据整合到一起 , 为数据分析平台的决策提供分析依据和数据资产 。 包括多表拼接、新增列及格式化数据等处理功能 。
文章图片
4、面向业务的数据仓库(结合纪委监委或检察院业务特点)
文章图片
能够敏捷式管理数据组织中的原始库、资源库、主题库、专题库、知识库和个人库等 。 原始库:数据在原始库中形成数据缓存层 , 以支持数据加工 。 同时实现了非结构化数据的关键信息的提取、数据分级分类标签等处理 。 原始库对外提供了查询、比对、推送、订阅等服务 。 同时为后续的数据血缘追踪提供溯源支持 。 资源库:是对原始库数据进行清洗标准化及轻度整合 , 形成全量数据的持久化层 。 资源库对外支持数据的分类检索、轨迹碰撞 , 及明细数据的统计、分析、比对、推送、订阅等服务 。 主题库:通过归并及建模 , 形成全息视图 , 并且通过实体间的关系构成了关系类知识图谱和事理图谱 。 对外在各中心共享了实体间的关系 , 并完成实体标签、数据分析、统计、比对等服务 。 专题库:为特定的分析模型业务活动提供基础数据、临时数据、分析统计类数据、挖掘类数据等 , 并记录业务过程中总结及发现的相关知识 。 知识库:资源库、主题库和业务库均有可能用到知识库 , 通过对资源库、主题库和业务库进行挖掘 , 可反哺和进一步完善知识库 。
文章图片
5、快速的数据建模(GI)及模型输出
文章图片
达爱GI是旨在帮助政府的数据分析人员充分了解和利用他们的数据 , 利用内置的可视化数据预处理工具 , 不需要代码就可以对多个数据表进行交并差联等多表进行处理 , 内置对单表数字、字符、时间、布尔等类型的常规算法 , 用户只需通过简单的拖拉拽等操作方式 , 便能对多种数据进行常用的数据碰撞、互斥、求和、排序、频率频数、中位数、标准差、方差、平均值、时间序数(以时间为单位的各种上述运算)制作出丰富多样的数据可视化信息 , 数据报表输出 , 实现自由地对数据进行分析和探索 。
- 差价500块,选华为Mate 50RS还是iPhone 14超大杯
- 大师级画质给你“好看”!千元级机皇哈趣K1投影
- 联发科|诺基亚“王者归来”:2K全面屏+8200mAh大电池,仅999元
- iqoo|6200mAh+7.09英寸大屏,iQOOU6x开始量产
- 微软|中国何时能孕育出微软这类的伟大公司
- 苹果|苹果发布会前瞻:iPhone 14产品大变阵,手表耳机有惊喜
- 本文转自:科技日报科技日报实习记者?张佳欣自然界拥有自己的内在“电网”。|光照加速大自然“电网”导电性
- 知乎回应截图嵌入盲水印,小米工程样车基本完成,王守义已注册十四香商标,高德打车上线AR实景找车,这就是今天的其它大新闻!
- 3D打印|刘兴亮丨我心目中的互联网行业十大Slogan
- 8月已经接近尾声|iPhone 14 Pro系列的相机性能将迎来巨大提升