大数据|大数据是一种信息资产,其特点是数量巨大、速度快、种类多

大数据|大数据是一种信息资产,其特点是数量巨大、速度快、种类多

文章图片

大数据|大数据是一种信息资产,其特点是数量巨大、速度快、种类多

文章图片

大数据|大数据是一种信息资产,其特点是数量巨大、速度快、种类多

文章图片


大数据有许多定义 , 涵盖从技术需求到社会影响的关键阈值的属性 。 高德纳提出的一种流行的大数据定义包括“量、速度和多样性” 。 这个定义是指标准数据集的规模不断扩大 , 它们产生的速度越来越快 , 以及所采用的格式和表示的范围越来越大 , 但是很少有数值量化来分析大数据 。 IBM在2012年添加了准确性 , 准确性描述了有关数据和源自数据的结果的信任和不确定性问题 。



德毛罗等人提出了大数据的另一种定:“大数据是一种信息资产 , 其特点是数量巨大、速度快、种类多 , 需要特定的技术和分析方法才能将其转化为价值” 。 传统上 , 统计分析是使用基于假设的数学公式进行的 , 而机器学习是基于算法的 , 使用数据而不是基于规则的编程 。 统计学旨在推断输入和输出之间的关系 , 并且可以在满足假设时解释概率分布的结果 。 使用统计分析的预测模型具有高解释力但预测能力低 。



因此 , 传统的统计方法依赖于一个假设 。 在大多数情况下 , 机器学习通过直接建模和从数据中学习来进行预测 , 而不需要基于假设或基于规则的编程 。 机器学习侧重于重要特征;它通过仅从预测模型的数据中提取重要特征来忽略噪声和异常值 。 医学大数据包括来自各种疾病、治疗方法、结果、数据资源、分析方法以及收集、处理和解释数据的方法的复杂结果 。
【大数据|大数据是一种信息资产,其特点是数量巨大、速度快、种类多】


医疗大数据有多种来源 , 如医院信息系统、电子病历、医嘱通信记录、图片归档和通信系统、患者报告、生物标志物数据、基因组数据、前瞻性队列研究和大型临床试验 。 医学数据有几个区别于其他领域数据的显着特征 。 医疗的数据通常难以访问 。 医学领域的许多研究人员出于各种原因对实践开放数据科学犹豫不决 , 包括数据被其他方滥用的风险 。 通常根据已建立的协议收集医疗数据 。



这些协议通常包括预处理以简化原始数据 。 医疗数据的获取和共享都需要机构批准、对患者的隐私保护、对某些数据元素含义的共识 , 以及支持数据共享的整体技术基础设施 。 在放射肿瘤学领域 , 在整个治疗过程和随访期间获取诊断和治疗数据 。 特定于放射肿瘤学 , 必须评估异构和大量的数据 。 这些数据以不同的格式存在于各种信息系统中 。 示例包括医院、实验室和肿瘤学信息系统、图片归档和通信系统以及记录和验证系统 。



随着对使用复杂数据进行个性化放射治疗的期望增加 , 使用人工智能进行结果预测的研究也有所增加 。 具体来说 , 基于大数据的决策支持系统的研究有所增加 。 在放射肿瘤学中已经开发了几种决策支持系统 。 用于治疗计划的决策支持系统以定量方式整合了成像、剂量学、生物学和其他数据 , 以提供特定的临床预测 。 例如 , 现在存在基于大数据预测辐射毒性的治疗计划决策支持系统 。



重要的是 , 在开发医疗决策支持系统时 , 验证和标准化至关重要 。 对于使用监督学习的预测模型 , 可以通过回顾性分析个别癌症患者的结果和预后来获得患者的数据 。 由于单个机构内可能存在数据收集偏差 , 因此多机构分析是有用的 。 此外 , 来自一个机构的数据可用于验证来自另一个机构的数据 。 肿瘤空间是放射肿瘤学领域多机构大数据平台的代表 。 它包括一个数据库和基于网络的分析工具 , 用于规划、数据导入和结果预测 。 放射肿瘤学数据共享受到肿瘤空间联盟模型的积极影响 。