数据科学是一个跨学科领域,它使用科学方法、过程、算法和系统从嘈杂的结构化和非结构化数据中提取知识和见解,[1][2] 并将数据中的知识应用于广泛的应用领域。数据科学与数据挖掘、机器学习和大数据有关。
数据科学是一个“统一统计、数据分析、信息学及其相关方法的概念”,以便用数据“理解和分析实际现象”。 [3]它使用来自数学、统计学、计算机科学、信息科学和领域知识背景下的许多领域的技术和理论。 [4]然而,数据科学不同于计算机科学和信息科学。图灵奖获得者 Jim Gray 将数据科学想象为科学的“第四范式”(经验、理论、计算,现在是数据驱动的),并断言“由于信息技术的影响,科学的一切都在发生变化”和数据泛滥.[5][6]
数据科学家是创建编程代码并将其与统计知识相结合以从数据中获得洞察力的人。 [7]
基础
数据科学是一个跨学科领域,专注于从典型的大型数据集中提取知识,并将这些数据中的知识和见解应用于解决广泛应用领域中的问题。 [8]该领域包括为分析准备数据、制定数据科学问题、分析数据、开发数据驱动的解决方案以及展示研究结果以告知广泛应用领域的高级决策。因此,它融合了计算机科学、统计学、信息科学、数学、数据可视化、信息可视化、数据声化、数据集成、图形设计、复杂系统、通信和商业方面的技能。 [9][10]统计学家 Nathan Yau 借鉴 Ben Fry,还将数据科学与人机交互联系起来:用户应该能够直观地控制和探索数据。[11][12] 2015 年,美国统计协会将数据库管理、统计和机器学习以及分布式和并行系统确定为三个新兴的基础专业社区。 [13]
与统计的关系
许多统计学家,包括 Nate Silver,都认为数据科学不是一个新领域,而是统计学的另一个名称。 [14]其他人则认为,数据科学不同于统计学,因为它关注的是数字数据特有的问题和技术。 [15] Vasant Dhar 写道,统计学强调定量数据和描述。相比之下,数据科学处理定量和定性数据(例如图像),并强调预测和行动。 [16]哥伦比亚大学的 Andrew Gelman 将统计描述为数据科学的非必要部分。 [17]
斯坦福大学教授大卫·多诺霍写道,数据科学与统计学的区别在于数据集的大小或计算的使用,许多研究生项目误导性地将他们的分析和统计培训宣传为数据科学项目的本质。他将数据科学描述为从传统统计学发展而来的应用领域。 [18]
总之,数据科学因此可以被描述为统计学的一个应用分支。
词源
早期使用
1962 年,John Tukey 描述了一个他称之为“数据分析”的领域,它类似于现代数据科学。 [18] 1985 年,C. F. Jeff Wu 在北京给中国科学院的一次演讲中,首次使用“数据科学”一词作为统计学的替代名称。 [19]后来,参加蒙彼利埃第二大学 1992 年统计研讨会的与会者承认出现了一门新学科,该学科侧重于各种来源和形式的数据,将统计和数据分析的既定概念和原则与计算相结合。[20][21]
“数据科学”一词可以追溯到 1974 年,当时 Peter Naur 提出将其作为计算机科学的替代名称。 [22] 1996 年,国际船级社联合会成为第一个专门将数据科学作为主题的会议。 [22]然而,定义仍在不断变化。 1985 年在北京中科院的演讲之后,1997 年 C. F. Jeff Wu 再次建议统计学应该更名为数据科学。他推断,一个新名称将有助于统计数据摆脱不准确的刻板印象,例如与会计同义,或仅限于描述数据。 [23] 1998 年,Hayashi Chikio 认为数据科学是一个新的跨学科概念,具有三个方面:数据设计、收集和分析。 [21]
在 1990 年代,在数据集(越来越大)中寻找模式过程的流行术语包括“知识发现”和“数据挖掘”。[24][22]
现代用法
数据科学作为一门独立学科的现代概念有时归因于 William S. Cleveland。 [25]在 2001 年的一篇论文中,他主张将统计学从理论扩展到技术领域;因为这会显着改变该领域,所以需要一个新名称。 [24] “数据科学”在接下来的几年里得到了更广泛的应用:2002 年,科学技术数据委员会推出了数据科学期刊。 2003 年,哥伦比亚大学创办了《数据科学杂志》。 [24] 2014 年,美国统计协会的统计学习和数据挖掘部门更名为统计学习和数据科学部门,反映了数据科学的日益普及。 [26]
“数据科学家”的职称已于 2008 年归属于 DJ Patil 和 Jeff Hammerbacher。 [27]尽管国家科学委员会在其 2005 年的报告“长寿的数字数据收集:21 世纪的研究和教育”中使用了它,但它泛指管理数字数据收集中的任何关键角色。 [28]
关于数据科学的定义仍然没有达成共识,被一些人认为是一个流行词。 [29]大数据是一个相关的营销术语。 [30]数据科学家负责将大数据分解为可用信息,并创建帮助公司和组织确定最佳运营的软件和算法。 [31]