随机变量|数据科学:内涵、方法、意义与发展

大数据的迅猛发展促使数据科学正在成为一门学科. 人们普遍认为: 大数据发展催生了数据科学, 而数据科学承载着大数据发展的未来. 然而,数据科学到底是什么?它对于科学技术发展、社会进步有什么特别的意义?它有没有独特的内涵与研究方法论?它的发展规律、发展趋势、学科边界与主攻方向, 乃至人才培养规律又是什么?澄清和科学认识这些问题非常重要, 特别是对于准确把握数据科学发展方向、促进以数据为基础的科学技术与数字经济发展、高质量培养数据科学人才等都有着极为重要而现实的意义.

为了系统回答这些问题, 中国科学院信息技术科学部和国家自然科学基金委员会数学物理科学部联合组成“数据科学发展战略”研究课题组, 从2016年起历时五年有余, 先后组织二十余次专家学者研讨, 在此基础上形成了“数据科学发展战略报告”. 《数据科学 : 它的内容、方法、意义与发展》根据这一报告扩充而成.

随机变量|数据科学:内涵、方法、意义与发展
文章插图
全书分为七章.

第1章从人类社会、物理世界、信息空间三元世界理论出发, 阐述大数据在信息化社会中的基础地位、作用与价值, 揭示大数据价值原理及数据科学的数字经济背景.

随机变量|数据科学:内涵、方法、意义与发展
文章插图
图 三元世界理论与科学技术

第2章尝试用数据科学的语言来沟通不同学科, 特别地, 以统一的术语扼要阐述数学、统计学、计算机科学、人工智能等学科中所使用的数据科学相关概念及内涵.由于数据科学生成的多源性、内涵的交叉性和知识的多学科性, 这样的“沟通”是数据科学发展的“第一步”.

随机变量|数据科学:内涵、方法、意义与发展
文章插图
图 数据-信息-知识-智慧(DIKW)层级图

随机变量|数据科学:内涵、方法、意义与发展
文章插图
图 数据价值链

图 深度神经网络结构示意

第3章在梳理已有对数据科学内涵解释的基础上, 以严格的方式定义什么是数据科学, 并通过总结相关学科重大进展来梳理数据科学形成的演进历史.不同于已有讨论, 本书将数据科学定义为“有关数据价值链实现的基础理论与方法学”. 我们从研究对象、方法论、科学任务与科学目标三个维度将数据科学的内涵解释为“是运用建模、分析、计算和学习杂糅的方法研究从数据到信息、从信息到知识、从知识到决策的转换, 并实现对现实世界的认知与操控”. 对数据科学这样的严格定义, -方面, 揭示了数据科学在大数据时代作为一门独立学科的必然性和重要性;另一方面, 有助于严格界定数据科学的内涵并厘清数据科学与其他学科的关系.

随机变量|数据科学:内涵、方法、意义与发展
文章插图
图 冯·诺依曼计算机体系结构

随机变量|数据科学:内涵、方法、意义与发展
文章插图
图 人工智能的三大流派及其发展

随机变量|数据科学:内涵、方法、意义与发展
文章插图
图 Gartner数据科学成长曲线(2016)

第4章专门讨论数据科学的研究方法论与发展规律. 一个学科的方法论是关于该学科领域认识和实践的一般途径, 是学科之间相互标识的主要特征之一.数据科学是由数学、统计学、计算机科学、人工智能等多个学科交叉形成的新学科. 那么, 它有没有自己独有的学科方法论?它的方法论与其他学科方法论又有什么样的联系与区别?这一章对这些问题展开分析并给出了回答.