元数据

元資料英語:),又稱詮釋資料中介資料中繼資料後設資料等,為描述其他資料資訊的資料[1]。有三種不同類型的元資料,分別是記敘性元資料結構性元資料管理性元資料[2]

  • 記敘性元資料描述了用於發現與辨別意義的資源。它可以包括如標題、摘要、作者和關鍵字等元素[3]
  • 結構性元資料是有關於資料容器的元資料,指示如何整理其中複合的物件。例如頁面依甚麼排序方式組成章節。
  • 管理性元資料是用於管理資源的資訊,例如資料產生的時間和方式、檔案種類和其它技術資訊,以及誰有權限存取它。在某些國家,有關於電子郵件、電話、網頁、IP連結與手機位置的元資料是固定由國家來儲存的。
在2010年元資料通常為數碼形式;而在1960和70年代的傳統卡片目錄,也是元資料的例子,因為這些卡片包含有關圖書館(作者,標題,主題等)中的圖書資訊。

內容簡介

主要是描述資料屬性(property)的資訊,用來支持如指示儲存位置、歷史資料、資源尋找、文件记錄等功能。元資料算是一種電子式目錄,為了達到編製目錄的目的,必須在描述並收藏資料的內容或特色,進而達成協助資料檢索的目的。

該名詞起源於1969年,由Jack E. Myers所提出的.metadata即關於資料的資料(),可以說是一種標準,是為支援互通性的資料描述,所取得一致的準則。其基本定義出自OCLC與NCSA所主辦的「Metadata Workshop」研討會。它將metadata定義為「描述資料的資料」(data about data)。此後各種有關Metadata的定義紛紛的出現。現存很多metadata的定義,主要視特定社群或使用情境而不同。如有有關資料的資料(data about data),有關資訊物件之結構的資訊(structured information about an information object),描述資源屬性的資料(Data describes attributes of resources)等。

都柏林核心集(Dublin Core Metadata Initiative,DCMI)是元資料的一種應用,是1995年2月由國際圖書館電腦中心(OCLC)和美國國家超級計算應用中心(National Center for Supercomputing Applications,NCSA)所聯合贊助的研討會,在邀請52位來自圖書館員電腦專家,共同制定規格,建立一套描述網路上電子文件之特徵。

歷史

元資料傳統上用於图书馆卡片目錄,一直到1980年代。2000年代起,數位化成為儲存資料的普遍方式。而圖書館也將其目錄資料轉換為數位資料庫,數位資料也有相關的元資料標準。

不同行業有不同的元資料標準(例如,博物館收藏、數位音樂檔案、網站等)。描述資料或資料檔的背景和內容,增加了實用性。例如一個網頁的元資料包括了有關頁面主題、編寫腳本語言(例如 HTML)、產生頁面的工具,以及哪裡有關於主題的更多資訊。這個元資料可以自動提高閱讀者的體驗,讓使用者更容易在網路上尋找網頁。音樂CD可提供此專輯的音樂家歌手歌曲作者資訊的元資料。

元資料的主要目的是幫助用戶尋找相關資訊並探索資源。元資料也有助於組織電子資源,提供數位識別,並支援歸檔和保存資源。“由相關標準尋找、辨識資源,將相似資源集中在一起,區分不同並提供位置資訊”,元資料可幫助使用者探索資源。各國政府廣泛收集包括互聯網在內的通訊活動元資料,用於流量分析,而且可用於大規模監控

在許多國家有關於電子郵件電話網頁IP連線與手機位置的元資料,是固定由國家儲存的。

定義

元資料是指「描述資料的資料」。雖然說源自於希臘介詞前綴 μετά- 的英文前綴「meta」代表「之後」或「之下」的意思,在此處實際上是使用知識論中「關於」的意思。元資料被定義為提供某些資料單方面或多方面資訊的資料;它被用來概述資料的基礎資訊,以簡化查找過程與方便使用[4]。例如:

  • 創建資料的方法
  • 資料的用途
  • 建立的時間與日期
  • 資料的建立者或作者
  • 資料被建立在電腦網路的何處
  • 用作標準
  • 檔案大小

舉例,一個數位影像檔案可能會包括描述圖片大小、色彩深度、圖片解析度、圖片建立時間、快門速度等資料的元資料[5]。一份文檔的元資料可能會包含文檔長度、作者、建立時間、文檔概述等資訊。網頁中的元資料也可以包含页面內容的描述,以及有關於內容的關鍵字等等[6]。這些東西常被稱作「元標籤」(metatags),其在1990年代後期以前被用來當作決定搜尋引擎結果順序的主要因素[6]。在1990年代後期,由於「關鍵字堆砌」的出現,對於元標籤的倚賴程度逐漸降低[6]。元標籤的濫用導致許多搜尋引擎會誤認某些結果的關聯性高於實際值[6]

元資料可以在被稱作元資料註冊系統元資料儲存庫資料庫中儲存和管理[7]。不過,如果沒有文字和參考點的話,單純看是很難辨認這些元資料的[8]。舉例來說:一個資料庫本身會包含一些數字,但是這些數字代表的涵義可能是某些計算後的結果,或者是書籍的ISBN碼──這就需要參考才能知道,而無法直接由資料容器內部得知。菲利普·巴格利在1968年在他的著作《Extension of Programming Language Concepts》中發明了「metadata」這個詞,當時的意思為「描述資料容器的資料」,也就是結構性元資料,而非描述性元資料或常用於圖書館目錄的元內容(metacontent)[9][10]。自那時起,資訊管理、資訊科學、資訊技術、圖書館學與地理資訊系統等領域廣泛接受了這個詞彙。在這些領域中,元資料的定義為「描述資料的資料」[11]。儘管這是最廣為接受的定義,許多學科也為了自用而採用了特殊的解釋或定義。

類型

雖然元資料的應用層面很廣,涵蓋各式各樣的領域,有專門和公認的方法來決定元資料的類型弗朗西斯·布雷瑟頓和辛格利(1994)將元資料分成兩類:結構性/控制性元資料和指南性元資料[12]。「結構性元資料」描述了諸如表格金鑰索引等資料庫物件的結構。「指南性元資料」幫助人們找到特定的物品,而且經常被壓縮為一系列自然語言中的關鍵字

根據拉爾夫·金博爾,元資料可以分成兩個相似的類別:技術性元資料和商業性元資料。「技術性元資料」等同內部性元資料,而「商業性元資料」則為外部性元資料。金博爾加入了第三種類別,「過程性元資料」。

另一方面,美國國家資訊標準組織將元資料分成三種:描述性、結構性和管理性[11]。「描述性元資料」通常用於發現識別,作為搜尋和定位物件的資訊,例如標題作者科目關鍵字出版商等等。「結構性元資料」描述物件的構成物是如何組織起來的,舉例來說,書頁是如何組成一本書中的章節的這種資料,就是結構性元資料。最後,「管理性元資料」給予有助於管理資源的資訊。管理性元資料參考技術資訊,包括檔案類型、檔案建立時間和檔案建立方式。管理性元資料之下還有兩個小分類,權限性元資料和保存性元資料。「權限性元資料」解釋了智慧財產權,而「保存性元資料」則包含保存和儲存資源的資訊[13]

結構

元資料(元內容)或更正確地,用來組合元資料(元內容)陳述句的詞彙,通常依據明確定義元資料綱要的標準化概念而結構化,其中包含了:元資料的標準和模型。諸如控制詞彙表分类学索引典資料字典元資料註冊庫等工具,可針對元資料進一步標準化。結構元資料的共通性在資料模型開發和資料庫設計中也是至關重要的。

語法

元資料(metacontent)語法是指產生元資料的欄位或元素的結構規則。單一個元資料綱要可以許多不同的標記編程語言來表達,每種標記或編程語言需要不同語法。例如,都柏林核心集(Dublin Core)可用純文字HTMLXMLRDF來表達。

(引導)元內容的常見例子是書目分類,主題,杜威十進位圖書分類號。在任何“分類”中總是有些關於物件的隱含陳述。將物件分類為例如杜威分類號514(拓撲)(即書背上有編號為514的書),隱含的陳述是:<book><subject heading><514>。這是一個主題-謂詞-物件的三元組,更重要的,它是一個類-屬性-值的三元組,前兩個元素(類、屬性)是已有定義語義的結構元資料片段。第三個元素是一個值,最好來自一些控制詞彙表,一些參考(主)資料。

元資料和主資料元素組合為一個陳述句,它是一個元內容陳述,即“元內容 = 元資料 + 主資料”。所有這些元素都可以當作“詞彙”。元資料和主資料都是詞彙,可以彙編成為元內容陳述。這些詞彙有很多來源,包括元資料和主資料:UMLEDIFACTXSD,Dewey/UDC/LoC,SKOS,ISO-25964,Pantone二名法等。使用控制詞彙表作為元內容陳述的組成部分,無論是索引或尋找,都被ISO 25964認可:“如果索引搜尋兩者從相同概念都選擇了相同的術語,那麼檢索將得到相關文件。”

這對互聯網的搜索引擎(如Google)尤其重要,搜尋程序使用複雜的索引演算法使搜尋的文字網頁相符合;其中並沒有智慧或“推論”發生,只是令人感覺似乎如此。

層級,線性和平面模式

元資料的模式在本質上是層級結構,即元資料元素和元素之間存在套疊的關係,因此元素之間有親子關係。層級模式的一個例子是IEEE LOM模式,其中某個元素可屬於父親的元資料元素。元資料模式也可以是一維或線性的,其中每個元素與其它元素完全不相關聯,而且只根據一維來分類。例如都柏林核心綱要就是一維的元資料模式。元資料模式通常是二維或平面的,其中每個元素與其它元素完全不相關聯,但根據兩個正交的維度來分類。

超映射

在元資料模式超出平面描述的所有情況下,需要某種類型的超映射(hypermapping)以選取觀點來顯示和查看元資料,並提供特殊視圖。超映射通常應用於地理學的或地質資訊疊加的圖層

細緻程度

將資料或元資料構造的程度稱為“細緻程度”(granularity),是指提供了多少資料的相關細節。具有高細緻度的元資料允許更深入、詳細和更結構化的資訊,並實現更高級別的技術操作。較低的細緻度意味著以低成本的考量來產生元資料,但沒有細節描述的資訊。細緻度的主要影響不僅在於元資料的產生和取得,而且在於其維護成本上。一旦元資料的結構變得過時,則對參考資料的存取也是如此。因此,細緻度必須考慮到產生以及維護元資料的投入。

標準

元資料有適用的國際標準。在國家和國際標準社群,特別是ANSIISO正完成許多工作,就元資料和登錄的標準化達成共識。元資料的核心登錄標準是ISO/IEC 11179 元資料登錄(MDR),在ISO/IEC 11179-1:2004中描述了該標準的框架。新版本的第一部份正處於2015年或2016年初發佈的最後階段,已經被修訂以符合目前版本的第三部份;而ISO/IEC 11179-3:2013,其中擴展了MDR以支援概念系統的登錄(見ISO/IEC 11179)。

此標準規範了記錄資料涵義和技術結構兩者,適合人類和計算機的無歧義用法。ISO/IEC 11179標準是指元資料為相關於資料的資訊物件,或是“有關資料的資料”。在ISO/IEC 11179第三部份中,一個資料項的資訊物件是指,描述關於其資料元素、值域和其它可重複使用語義,與用來描述意義和技術細節。此標準還規定了元資料登錄的詳細內容,以及在元資料登錄中為了登錄和管理的資訊物件。ISO/IEC 11179第三部份也預定了從其它資料元素衍生的複合結構描述,例如經過計算,一或多個資料元素的集合或其它形式的衍生資料。

此標準原先敘述本身為“資料元素”登錄,但其目的則獨立於任何特定應用程式之外,支援元資料內容的記敘和登錄,將記敘提供給人或計算機以開發新的應用程式,資料庫,或根據登錄的元資料內容來分析收集到的資料。重複利用、擴展與該標準的管理部份,此標準已成為其它類型的元資料登錄的一般基礎。

地理空間社群有專業化地理空間元資料標準的傳統,特別奠基於地圖圖像庫目錄之上。對於地理空間資料,正規的元資料是必要基本的,一般文字處理方法則無法適用。

都柏林核心元資料術語是一組詞彙,用於描述意圖探索的資源。最初的15個經典元資料術語被稱為都柏林核心元資料元素集,在以下標準文件中均認可:

  • IETF RFC 5013
  • ISO標準 15836-2009
  • NISO標準 Z39.85。

雖然微格式遵循XHTMLHTML的語義標記方法,但它本身不是一個標準,它嘗試重新利用現有的網頁標籤來傳送元資料。一位微格式的倡導者坦塔克·塞里克,說明了採行另案的問題癥結點:“我們希望你學習一種新語言,現在你需要在伺服主機上輸出這些額外的文件。實在是麻煩。(微格式)能降低進入障礙。”

用途

照片

含有擁有者,版權和聯繫資訊的識別元資料可能被寫入數位照片檔案,產生檔案的相機品牌型號以及曝光資訊(快門速度,f-stop等)和記述資訊,例如關於照片的關鍵字,使檔案或圖像可在計算機和/或互聯網上搜尋。

一些元資料由相機產生,一些元資料由攝影師和/或軟件在下載到計算機之後輸入。大多數數位相機都會寫入關於機型、快門速度等的元資料,有些則可以編輯它;在大多數NikonCanon,和Pentax DSLRs相機已經提供這樣的功能。在後期製作時,使用元資料關鍵字可更方便組織。過濾器可用於分析特定的一組照片,並根據評等或攝影時間等標準來選取。

攝影元資料標準由制定以下標準的組織管理。它們包括但不限於:

  • IPTC Information Interchange Model IIM (International Press Telecommunications Council),
  • IPTC Core Schema for XMP
  • XMP – Extensible Metadata Platform (an ISO standard)
  • Exif – Exchangeable image file format, Maintained by CIPA (Camera & Imaging Products Association) and published by JEITA (Japan Electronics and Information Technology Industries Association)
  • Dublin Core (Dublin Core Metadata Initiative – DCMI)
  • PLUS (Picture Licensing Universal System).
  • VRA Core (Visual Resource Association)

電信

關於電信通話,非通訊的內容如通話時間、起點和目地的資訊、電子訊息、即時訊息和其它電信模式,是另一種形式的元資料。在Edward Snowden公佈情報機構對通話細節記錄元資料的大量收集後,大眾對於此舉是有爭議的,例如NSA保留數百萬互聯網使用者的在線元資料長達一年,無論他們是否為該機構所關注的人物。

影片

元資料在影片中特別有用,其中關於內容資訊(例如對白字幕和場景敘述)計算機並無法理解,而是用於有效地搜尋內容。影片元資料來源有兩個來源:

  1. 操作收集的元資料,即內容的製作資訊,如設備類型、軟體日期位置
  2. 人工編輯的元資料,以提高搜索引擎的能見度、可探索性,觀眾參與度,並向影片發行商提供廣告機會。在當今社會專業的影片編輯軟體可存取元資料,例如Avid's MetaSync和Adobe的Bridge。

網頁

網頁通常包含元標記形式的元資料。元標籤(<meta ……>)中的敘述和關鍵字一般用於描述網頁的內容。標記元素也指示頁面描述、關鍵字、檔案作者以及最後修改的時間。網頁元資料可幫助搜索引擎和使用者,尋找他們需求的網頁類型。

參考文獻

  1. . [2016-11-14]. (原始内容存档于2015-02-27).
  2. Zeng, Marcia. . NISO. 2004 [5 October 2016]. (原始内容存档于2016-10-07).
  3. National Information Standards Organization (NISO). (PDF). NISO Press. 2001 [2016-11-14]. ISBN 1-880124-62-9. (原始内容 (PDF)存档于2014-11-07).
  4. . theguardian.com. Guardian News and Media Limited. 12 June 2013 [2016-11-14]. (原始内容存档于2014-05-22).
  5. . [2013-05-20]. (原始内容存档于2013-05-17).
  6. Rouse, Margaret. . WhatIs. TechTarget. July 2014 [2016-11-14]. (原始内容存档于2015-10-29).
  7. Hüner, K.; Otto, B.; Österle, H.: Collaborative management of business metadata, in: International Journal of Information Management, 2011
  8. (PDF). [2011-12-23]. (原始内容存档 (PDF)于2011-06-29).
  9. Philip Bagley. (PDF). Philadelphia: University City Science Center. November 1968 [2016-11-14]. (原始内容存档 (PDF)于2012-11-30).
  10. "The notion of "metadata" introduced by Bagley". Solntseff, N+1; Yezerski, A. . Annual Review in Automatic Programming 7. Elsevier Science Ltd: 267–307. 1974. doi:10.1016/0066-4138(74)90001-9.
  11. NISO. (PDF). NISO Press. [5 January 2010]. ISBN 1-880124-62-9. (原始内容 (PDF)存档于2014年11月7日).
  12. Bretherton, F. P.; Singley, P.T. : 1091–1094. 1994.
  13. National Information Standards Organization; Rebecca Guenther; Jaqueline Radebaugh. (PDF). Bethesda, MD: NISO Press. 2004 [2 April 2014]. ISBN 1-880124-62-9. (原始内容 (PDF)存档于2014年11月7日).

参见

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.