数据科学

数据科学英語:)是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品[1]。它结合了诸多领域中的理论和技术,包括应用数学统计模式识别机器学习数据可视化数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。 数据科学技术可以帮助我们如何正确的处理数据并协助我们在生物学社会科学人类学等领域进行研究调研。此外,数据科学也对商业竞争有极大的帮助[2]

歷史

1960年代,Peter Naur 就首次提議要用「數據科學(data science、Datalogy)」來替代「計算機科學(computer science)」,後來在上世紀九十年代中期為國際分類社團聯盟所用。

1997年11月,吴建福 发表了题为“统计=数据科学?”的就任演讲,[3] 因为他被任命为密歇根大学的 H. C.卡弗教授。[4] 在这次演讲中,他将统计工作描述为数据收集、数据建模和分析以及决策制定的三部曲。 在他的结论中,他开创了“数据科学”(而非“计算机科学”)这个术语的现代用法,并提倡将统计学重命名为数据科学,而统计学家则应重命名为数据科学家。[3] 后来,他发表了题为“统计=数据科学?”的演讲,作为他1998年的首个 P. C. 马哈拉诺比斯纪念演讲。[5] 这些讲座是为了纪念印度科学家、统计学家和印度统计学院创始人P. C. 马哈拉诺比斯

2001年,William S. Cleveland 提議將其設立為一個新的學科,吸收「計算在數據方面取得的進展」作為統計學的延伸。《Data Science Journal》及《The Journal of Data Science》分別於2002年與2003年發行;2005年9月,美国国家科学基金会發表了《长存的数码数据收集:使21世纪的研究与教育成为可能》,文中將數據科學家定義為「信息与计算机科学家,数据库与软件工程师与程序员,跨学科专家,保管员以及专业注释者,图书馆员,档案馆员和其他人员,这些人对数码数据收集的成功管理至关重要。」[6] 2008年 Jeff Hamerbatcher 與 DJ Patil circa 分別在 FacebookLinkedIn 領導全球第一支數據科學團隊,至此數據科學越來越被廣泛流行,並應用到公共衛生、市場、金融、社會等各個領域。

数据科学家

數據科學家這個職位的頭銜則是1997年吴建福的报告 "Statistics = Data Science?"中首次提及的,他認為數據科學家就是能夠從大型數據集中析取出數據,並进行统计推断统计学家

2009 年 1 月,數位化數據跨機構工作組發表了一份名為《駕馭科學與社會數字化數據之力》的報告,Sadkowsky 從中了解到「數據科學家」這個詞,認為該詞是自己所從事工作的最好描述。

2012年,数据科学家被《哈佛商業評論》称为《二十一世纪最性感的职业》[7]後,數據科學逐漸成為一個時髦術語(英語:Buzzword)。

数据科学家在美欧的需求巨大,麥肯錫公司宣布全世界上此职业人才短缺超过二十万工人[8]。《The Data Incubator》国际企业,在硅谷纽约成立,提供国际大数据和数据科学培训服务。

参考文献

  1. Dhar, Vasant. . [2014-07-14]. (原始内容存档于2014-11-09).
  2. AOL staff. . [2014-07-14]. (原始内容存档于2014-07-17).
  3. Wu, C. F. J. (1997). (PDF). [9 October 2014]. (原始内容存档 (PDF)于2014-10-14).
  4. . The University Records, 9 November 1997, The University of Michigan. [12 August 2013]. (原始内容存档于2013-10-29).
  5. . P.C. Mahalanobis Memorial Lectures, Indian Statistical Institute. [18 Jul 2017]. (原始内容存档于29 October 2013).
  6. (PDF). National Science Board, September 2005, National Science Foundation. [19 January 2020]. (原始内容存档 (PDF)于2017-05-05).
  7. . [2017-06-17]. (原始内容存档于2017-06-14).
  8. . [2017-06-17]. (原始内容存档于2017-06-19).
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.