大數據

英語:[1][2][3]),指的是在傳統數據處理應用軟件不足以處理的大或複雜的數據集的術語[4][5]

大數據也可以定義為来自各種來源的大量非結構化或結構化數據。從學術角度而言,大數據的出現促成廣泛主題的新穎研究。這也導致各種大數據統計方法的發展。大數據並沒有統計學抽樣方法;它只是觀察和追踪發生的事情。因此,大數據通常包含的數據大小超出傳統軟件在可接受的時間內處理的能力。由於近期的技術進步,發布新數據的便捷性以及全球大多數政府對高透明度的要求,大數據分析在現代研究中越來越突出。[6] [7]

概述

截至2012年 (2012-Missing required parameter 1=month!),技術上可在合理時間內分析處理的資料集大小單位為艾位元組()[8]。在許多領域,由於資料集過度龐大,科學家經常在分析處理上遭遇限制和阻礙;這些領域包括氣象學基因組學[9]神經網路體學、複雜的物理模擬[10],以及生物和環境研究[11]。這樣的限制也對網路搜尋金融經濟資訊學造成影響。資料集大小增長的部分原因來自於資訊持續從各種來源被廣泛收集,這些來源包括搭載感測設備的行動裝置、高空感測科技(遥感)、軟體記錄、相機、麥克風、無線射頻辨識(RFID)和無線感測網路。自1980年代起,現代科技可儲存資料的容量每40個月即增加一倍[12]截至2012年 (2012-Missing required parameter 1=month!),全世界每天產生2.5艾位元組(2.5×1018位元組)的資料[13]

巨量資料幾乎無法使用大多數的資料庫管理系統處理,而必須使用「在數十、數百甚至數千台伺服器上同時平行運行的軟體」(電腦叢集是其中一種常用方式)[14]。巨量資料的定義取決於持有資料組的機構之能力,以及其平常用來處理分析資料的軟體之能力。「對某些組織來說,第一次面對數百GB的資料集可能讓他們需要重新思考資料管理的選項。對於其他組織來說,資料集可能需要達到數十或數百TB才會對他們造成困擾。」[15]

随着大數據被越来越多的提及,有些人惊呼大數據时代已经到来了,2012年《纽约时报》的一篇专栏中写到,“大數據”时代已经降临,在商业、经济及其他领域中,决策将日益基于數據和分析而作出,而并非基于经验和直觉。但是并不是所有人都对大數據感兴趣,有些人甚至认为这是商学院或咨询公司用来哗众取宠的時髦術語(buzzword),看起来很新颖,但只是把传统重新包装,之前在学术研究或者政策决策中也有海量数据的支撑,大数据并不是一件新兴事物。

大数据时代的来临带来无数的机遇,但是与此同时个人或机构的隐私权也极有可能受到冲击,大數據包含各种个人信息数据,现有的隐私保护法律或政策无力解决这些新出现的问题。有人提出,大数据时代,个人是否拥有“被遗忘权”,被遗忘权即是否有权利要求数据商不保留自己的某些信息,大数据时代信息为某些互联网巨头所控制,但是数据商收集任何数据未必都获得用户的许可,其对数据的控制权不具有合法性。2014年5月13日欧盟法院就“被遗忘权”(right to be forgotten)一案作出裁定,判决谷歌应根据用户请求删除不完整的、无关紧要的、不相关的数据以保证数据不出现在搜索结果中。这说明在大数据时代,加强对用户个人权利的尊重才是时勢所趋的潮流。

IBM對維基百科使用者:Pearle的編輯紀錄資料進行視覺化的呈現。維基百科上總計數兆位元組的文字和圖片正是大資料的例子之一
全球資訊儲存容量成長圖

定義

巨量資料由巨型數據集組成,這些數據集大小常超出人類在可接受時間下的收集庋用、管理和處理能力[16]。巨量資料的大小經常改變,截至2012年 (2012-Missing required parameter 1=month!),單一資料集的大小從數太位元組(TB)至數十兆億位元組(PB)不等。

在一份2001年的研究與相關的演講中[17]麦塔集团(META Group,現為高德纳)分析員道格·萊尼()指出數據長的挑戰和機遇有三個方向:量(,數據大小)、速(,資料输入輸出的速度)與多變(,多样性),合稱「3V」或「3Vs」。高德纳與現在大部份巨量資料產業中的公司,都繼續使用3V來描述大數據[18]。高德納於2012年修改對大數據的定義:「巨量資料是大量、高速、及/或多變的資訊資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最佳化處理[原文 1][19]。」另外,有機構在3V之外定義第4個V:真实性()為第四特点[20]

巨量資料必須藉由計算機對資料進行統計、比對、解析方能得出客觀結果。美國在2012年就開始著手大數據,歐巴馬更在同年投入2億美金在大數據的開發中,更強調巨量資料會是之後的未來石油。

資料探勘(data mining)則是在探討用以解析巨量資料的方法。

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于特殊大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

數據來源類型

大數據取得之來源影響其應用之效益與品質,依照取得的直接程度一般可分為三種[21][22]

  • 第一方數據(First Party Data):為己方單位自己和消費者、用戶、目標客群互動產生的數據,具有高品質、高價值的特性,但易局限於既有顧客資料,如企業蒐集的顧客交易資料、追蹤用戶在APP上的瀏覽行為等,擁有者可彈性地使用於分析研究、行銷推廣等[23]
  • 第二方數據(Second Party Data):取自第一方的資料,通常與第一方具有合作、聯盟或契約關係,因此可共享或採購第一方數據。如:訂房品牌與飛機品牌共享資料,當客人購買某一方的商品後,另一單位即可推薦他相關的旅遊產品;或是已知某單位具有己方想要的資料,透過議定採購,直接從第一方取得數據[24]
  • 第三方數據(Third Party Data):提供資料的來源單位,並非產出該資料的原始者,該資料即為第三方數據。通常提供第三方數據的單位為資料供應商,其廣泛蒐集各式數據,並販售給資料需求者,其資料可來自第一方、第二方與其他第三方資料,如爬取網路公開資料、市調公司所發布的研究調查、經去識別化的交易資訊等[25]

應用範例

巨量資料的應用範例包括大科学RFID、感測設備網路、天文學、大氣學、交通運輸、基因組學、生物學、大社會資料分析[26]、網際網路文件處理、製作網際網路搜尋引擎索引、通信記錄明細、軍事偵查、金融巨量資料,醫療巨量資料,社群網路、通勤時間預測、醫療記錄、照片圖像和影像封存、大規模的電子商務[27]

應用於運動界

巨大科學

大型強子對撞機中有1億5000萬個感測器,每秒傳送4000萬次的資料。實驗中每秒產生將近6億次的對撞,在過濾去除99.999%的撞擊資料後,得到約100次的有用撞擊資料[28][29][30]

將撞擊結果資料過濾處理後僅記錄0.001%的有用資料,全部四個對撞機的資料量複製前每年產生25拍位元組(PB),複製後為200拍位元組。

如果將所有實驗中的資料在不過濾的情況下全部記錄,資料量將會變得過度龐大且極難處理。每年資料量在複製前將會達到1.5億拍位元組,等於每天有近500艾位元組(EB)的資料量。這個數字代表每天實驗將產生相當於500(5×1020)位元組的資料,是全世界所有資料來源總和的200倍。

衛生學

國際衛生學教授漢斯·羅斯林使用「Trendalyzer」工具軟體呈現兩百多年以來全球人類的人口統計資料,跟其他數據交叉比對,例如收入、宗教、能源使用量等。

公共部门

目前,发达国家的政府部门开始推广大数据的应用。2012年奥巴马政府投资近两亿美元开始推行《大数据的研究与发展计划》,本计划涉及美国国防部美国卫生与公共服务部门等多个联邦部门和机构,意在通过提高从大型复杂的的数据中提取知识的能力,进而加快科学和工程的开发,保障国家安全。

信息审查

中国政府计划建立全面的个人信用评分体系,其包含不少对个人行为的评定,有关指标会影响到个人贷款工作签证等生活活动。高科技公司在被政治介入为其目的服务,个人的大部分行为和社交关系受掌控,几乎无人可免于被纳入个人信用评价体系的监控[31]。除獲取網絡數據外,中國政府還希望從科技公司獲得分類和分析信息的雲端計算能力,透過城市监控摄像机智能手機、政府數據庫等蒐集數據,以建造智慧城市和安全城市。人權觀察駐香港研究員王松蓮指出,整個安全城市構想無非是一個龐大的監視項目[32]

民間部門

  • 亚马逊公司,在2005年的時點,這間公司是世界上最大的以LINUX為基礎的三大資料庫之一[33]
  • 沃尔玛可以在1小時內處理百万以上顧客的消費處理。相當於美國議會圖書館所藏的書籍之167倍的情報量[34]
  • Facebook,處理500億枚的使用者相片[35]
  • 全世界商業資料的數量,統計全部的企業全体、推計每1.2年會倍增[36]
  • 西雅圖文德米爾不動產分析約1億匿名GPS信號,提供購入新房子的客戶從該地點使用交通工具(汽車、腳踏車等)至公司等地的通勤時間估計值[37]
  • 软银,每個月約處理10億件(2014年3月現在)的手機LOG情報,並用其改善手機訊號的訊號強度[38]
  • 大企业对大数据技能需求量大,吸引了许多大学诸如伯克利大学开专门提供受过大数据训练的毕业者的大学部门。硅谷纽约为主《The Data Incubator》公司,2012年成立,焦点是数据科学与大数据企业培训,提供国际大数据培训服务。

社会学

大資料产生的背景离不开Facebook等社交网络的兴起,人们每天通过这种自媒体传播信息或者沟通交流,由此产生的信息被网络记录下来,社会学家可以在这些数据的基础上分析人类的行为模式、交往方式等。美国的涂尔干计划就是依据个人在社交网络上的数据分析其自杀倾向,该计划从美军退役士兵中拣选受试者,透过Facebook的行动app收集资料,并将用户的活动数据传送到一个医疗资料库。收集完成的数据会接受人工智能系统分析,接著利用预测程式来即时监视受测者是否出现一般认为具伤害性的行為。

商業

運用資料探勘技術,分析網路聲量,以了解客戶行為、市場需求,做行銷策略參考與商業決策支援,或是應用於品牌管理,經營網路口碑、掌握負面事件等。如電信業者透過品牌的網路討論資料,即時找出負面事件進行處理,減低負面討論在網路擴散後所可能引發的形象危害。[39]

市場

巨量資料的出現提升了對資訊管理專家的需求,Software AGOracleIBM微軟SAP易安信惠普戴爾已在多間資料管理分析專門公司上花費超過150億美元。在2010年,資料管理分析產業市值超過1,000億美元,並以每年將近10%的速度成長,是整個軟體產業成長速度的兩倍[34]

經濟的開發成長促進了密集資料科技的使用。全世界共有約46億的行動電話用戶,並有10至20億人連結網際網路[34]。自1990年起至2005年間,全世界有超過10億人進入中產階級,收入的增加造成了識字率的提升,更進而帶動資訊量的成長。全世界透過電信網路交換資訊的容量在1986年為281兆億位元組(PB),1993年為471兆億位元組,2000年時增長為2.2艾位元組(EB),在2007年則為65艾位元組[12]。根據預測,在2013年網際網路每年的資訊流量將會達到667艾位元組[34]

相關條目

注释

  1. 原文:Big data are high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.

参考文献

  1. White, Tom. . O'Reilly Media. 2012-05-10: 3 [2015-12-08]. ISBN 978-1-4493-3877-0. (原始内容存档于2015-05-12).
  2. . [2015-12-07]. (原始内容存档于2018-09-25).
  3. . [2017-03-21]. (原始内容存档于2017-03-22). 已忽略文本“Microsoft Azure” (帮助)
  4. Kusnetzky, Dan. . ZDNet. (原始内容存档于2010-02-21).
  5. Vance, Ashley. . New York Times Blog. 2010-04-22 [2015-12-07]. (原始内容存档于2015-09-08).
  6. Li, Rita Yi Man. . MDPI. [2018-03-18]. (原始内容存档于2018-03-13).
  7. . [2015-12-07]. (原始内容存档于2018-09-25).
  8. Francis, Matthew. . 2012-04-02 [2012-10-24]. (原始内容存档于2012-10-10).
  9. . Nature. 4 September 2008, 455 (7209): 1 [2015-12-07]. doi:10.1038/455001a. (原始内容存档于2017-07-09).
  10. . HPC Projects. 2009-08-04. (原始内容存档于2011-05-11).
  11. Reichman, O.J.; Jones, M.B.; Schildhauer, M.P. . Science. 2011, 331 (6018): 703–5. doi:10.1126/science.1197962.
  12. Hilbert & López 2011
  13. . www.ibm.com. [2013-08-26]. (原始内容存档于2013-08-24).
  14. Jacobs, A. . ACMQueue. 6 July 2009 [2015-12-07]. (原始内容存档于2015-12-08).
  15. Magoulas, Roger; Lorica, Ben. . Release 2.0 (Sebastopol CA: O'Reilly Media). 2009-02, (11) [2015-12-07]. (原始内容存档于2010-06-04).
  16. Snijders, C., Matzat, U., & Reips, U.-D. (2012). ‘Big Data’: Big gaps of knowledge in the field of Internet science. International Journal of Internet Science, 7, 1-5. http://www.ijis.net/ijis7_1/ijis7_1_editorial.html 页面存档备份,存于
  17. Douglas, Laney. (PDF). Gartner. [2001-02-06]. (原始内容存档 (PDF)于2013-07-23).
  18. Beyer, Mark. . Gartner. [2011-07-13]. (原始内容存档于2011-07-10).
  19. Douglas, Laney. . Gartner. [21 June 2012]. (原始内容存档于2020-04-07).
  20. . Villanova University. [2015-12-08]. (原始内容存档于2014-02-20).
  21. 1st Party Data, 2nd Party Data, 3rd Party Data: What Does It All Mean? 页面存档备份,存于,LOTAME,2019/8/19
  22. 1st, 2nd and 3rd Party Data – What It All Means? 页面存档备份,存于,adsquare,Paulina,2017/3/7。
  23. 第一方資料(First-Party Data):企業所需最接近真相的數據分析,謝佳穎 页面存档备份,存于,2016/5/19。
  24. 探討廣告數據平台DMP價值 页面存档备份,存于,遠見,2014/09/15。
  25. 第三方數據在零售業的創新應用 页面存档备份,存于,OpView社群口碑資料庫,2017/7/25。
  26. Erik Cambria; Dheeraj Rajagopal, Daniel Olsher, and Dipankar Das. . . Taylor & Francis. 2013 [2015-12-08]. (原始内容存档于2016-03-03).
  27. Hogan, M. . 2013-06-20 [2018-02-18]. (原始内容存档于2017-07-22).
  28. . CERN-Brochure-2010-006-Eng. LHC Brochure, English version. CERN. [20 January 2013]. (原始内容存档于2019-03-19).
  29. . CERN-Brochure-2008-001-Eng. LHC Guide, English version. CERN. [20 January 2013]. (原始内容存档于2020-04-07).
  30. Brumfiel, Geoff. . Nature 469. 19 January 2011: 282–83 [2015-12-08]. doi:10.1038/469282a. (原始内容存档于2017-07-30).
  31. 陈迎竹. . 2017-10-15. (原始内容存档于2017-10-17).
  32. . 立場新聞. 2017-12-01. (原始内容存档于2017-12-01).
  33. Layton, Julia. . Money.howstuffworks.com. [2013-03-05]. (原始内容存档于2013-02-28).
  34. . The Economist. 2010-02-25 [2012-12-09].
  35. . Facebook.com. [2013-07-21]. (原始内容存档于2013-07-05).
  36. . Knowwpcarey.com. 2012-05-08 [2013-03-05]. (原始内容存档于2012-06-19).
  37. Wingfield, Nick. . Bits.blogs.nytimes.com. 2013-03-12 [2013-07-21]. (原始内容存档于2013-05-29).
  38. 柴山和久. . 幻冬舎. 2014. ISBN 978-4344952393 (日语).
  39. 楊立偉教授. . 2014. (原始内容存档于2019-12-11).

延伸閱讀

  • (PDF). ODBMS.org. 2012-06-05 [2013-11-12]. (原始内容存档 (PDF)于2013-10-08).
  • Hilbert, Martin; López, Priscila. . Science. 2011, 332 (6025): 60–65 [2015-12-07]. PMID 21310967. doi:10.1126/science.1200970. (原始内容存档于2015-12-24).
  • . GE Intelligent Platforms. [2013-11-12]. (原始内容存档于2013-11-12).
  • ISBN 978-986-320-191-5 《大》
  • ISBN 978-986-241-673-0 《雲端時代的殺手級應用:Big Data巨量資料分析》
  • . ODBMS.org. 2014-09-07 [2014-09-07]. (原始内容存档于2014-10-20).

外部連結

维基共享资源中相关的多媒体资源:大數據
查询維基詞典中的
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.