元數據

元數據

元數據的相關資料以及實際應用
元數據(Meta Data)是關于數據倉庫的數據,指在數據倉庫建設過程中所産生的有關數據源定義,目标定義,轉換規則等相關的關鍵數據。同時元數據還包含關于數據含義的商業信息,所有這些信息都應當妥善保存,并很好地管理。為數據倉庫的發展和使用提供方便。
    中文名:元數據 外文名:Metadata 所屬學科:

目錄

定義

原理

特點

應用

概念

元數據被定義為:提供關于信息資源或數據的一種結構化的數據,是對信息資源的結構化的描述。其作用為:描述信息資源或數據本身的特征和屬性,規定數字化信息的組織,具有定位、發現、證明、評估、選擇等功能。一般認為,所謂元數據是關于數據的數據,或關于數據的結構化的數據。從已有的結論看,元數據的含義是逐漸發展的。元數據一詞,早期主要指網絡資源的描述數據,用于網絡信息資源的組織;其後,逐步擴大到各種以電子形式存在的信息資源的描述數據。目前,元數據這一術語實際用于各種類型信息資源的描述記錄。此外,元數據在地理界,生命科學界等領域也有其相應的定義和應用。元數據是一種二進制信息,用以對存儲在公共語言運行庫可移植可執行文件 (PE) 文件或存儲在内存中的程序進行描述。将您的代碼編譯為 PE 文件時,便會将元數據插入到該文件的一部分中,而将代碼轉換為 Microsoft 中間語言 (MSIL) 并将其插入到該文件的另一部分中。在模塊或程序集中定義和引用的每個類型和成員都将在元數據中進行說明。當執行代碼時,運行庫将元數據加載到内存中,并引用它來發現有關代碼的類、成員、繼承等信息。

内容

元數據以非特定語言的方式描述在代碼中定義的每一類型和成員。元數據存儲以下信息:

程序集的說明

标識(名稱、版本、區域性、公鑰)

導出的類型

該程序集所依賴的其他程序集

運行所需的安全權限

類型的說明

名稱、可見性、基類和實現的接口

成員(方法、字段、屬性、事件、嵌套的類型)

屬性

修飾類型和成員的其他說明性元素

優點

對于一種更簡單的編程模型來說,元數據是關鍵,該模型不再需要接口定義語言 (IDL) 文件、頭文件或任何外部組件引用方法。元數據允許 .NET 語言自動以非特定語言的方式對其自身進行描述,而這是開發人員和用戶都無法看見的。另外,通過使用屬性,可以對元數據進行擴展。元數據具有以下主要優點:

自描述文件

公共語言運行庫模塊和程序集是自描述的。模塊的元數據包含與另一個模塊進行交互所需的全部信息。元數據自動提供 COM 中 IDL 的功能,允許将一個文件同時用于定義和實現。運行庫模塊和程序集甚至不需要向操作系統注冊。結果,運行庫使用的說明始終反映編譯文件中的實際代碼,從而提高應用程序的可靠性。

語言互用性和更簡單的基于組件的設計

元數據提供所有必需的有關已編譯代碼的信息,以供您從用不同語言編寫的 PE 文件中繼承類。您可以創建用任何托管語言(任何面向公共語言運行庫的語言)編寫的任何類的實例,而不用擔心顯式封送處理或使用自定義的互用代碼。

屬性

NET Framework 允許您在編譯文件中聲明特定種類的元數據(稱為屬性)。在整個 .NET Framework 中到處都可以發現屬性的存在,屬性用于更精确地控制運行時您的程序如何工作。另外,您可以通過用戶定義的自定義屬性向 .NET Framework 文件發出您自己的自定義元數據。有關更多信息,請參見利用屬性擴展元數據。

意義

說到元數據的意義,可以從其應用目的來談的。雖然做數據倉庫言必稱元數據,必稱技術、業務元數據,但其到底用于何處?離開了目标去談元數據,就發現元數據包含太多的東西,因為他是描述數據的數據嘛。

還是那客戶關系系統來比喻,這個系統維護客戶信息當然是有目的的,是要用這些信息進行一些自動的流程處理、去挖掘一些客戶潛在的價值、做好客戶服務。當然沒有必要去維護客戶的生命特征信息,諸如指紋、犯罪史等,這些信息跟客戶關系管理的目标關系不大。元數據也是如此,你可以将所以數據的結構、大小、什麼時間創建、什麼時間消亡、被那些人使用等等,這些信息可以延伸得太廣,如果不管目标,而試圖去建一個非常完美的元數據管理體系,這是一種絕對的"自上而下"做法,必敗無疑。

内容

基于應用,可以将元數據分成以下的若幹種:

數據結構:數據集的名稱、關系、字段、約束等;

數據部署:數據集的物理位置;

數據流:數據集之間的流程依賴關系(非參照依賴),包括數據集到另一個數據集的規則;

質量度量:數據集上可以計算的度量;

度量邏輯關系:數據集度量之間的邏輯運算關系;

ETL過程:過程運行的順序,并行、串行;

數據集快照:一個時間點上,數據在所有數據集上的分布情況;

星型模式元數據:事實表、維度、屬性、層次等;

報表語義層:報表指标的規則、過濾條件物理名稱和業務名稱的對應;

數據訪問日志:哪些數據何時被何人訪問;

質量稽核日志:何時、何度量被稽核,其結果;

數據裝載日志:哪些數據何時被何人裝載;

标準化框架

數字圖書館資源組織框架

元數據開發應用框架

元數據的基本意義 Metadata(元數據)是“關于數據的數據”;

元數據為各種形态的數字化信息單元和資源集合提供規範、普遍的描述方法和檢索工具;

元數據為分布的、由多種數字化資源有機構成的信息體系(如數字圖書館)提供整合的工具與紐帶。

離開元數據的數字圖書館将是一盤散沙,将無法提供有效的檢索和處理。

元數據應用環境

Metadata的應用目的

(1)确認和檢索(Discovery andentification),主要緻力于如何幫助人們檢索和确認所需要的資源,數據元素往往限于作者、标題、主題、位置等簡單信息,Dublin Core是其典型代表。

(2)著錄描述(Cataloging),用于對數據單元進行詳細、全面的著錄描述,數據元素囊括内容、載體、位置與獲取方式、制作與利用方法、甚至相關數據單元方面等,數據元素數量往往較多,MARC、GILS和FGDC/CSDGM是這類Metadata的典型代表。

(3)資源管理(Resource Administration),支持資源的存儲和使用管理,數據元素除比較全面的著錄描述信息外,還往往包括權利管理(Rights/Privacy Management)、電子簽名(Digital Signature)、資源評鑒(Seal of Approval/Rating)、使用管理(Access Management)、支付審計(Payment and Accounting)等方面的信息。

(4)資源保護與長期保存(Preservation and Archiving),支持對資源進行長期保存,數據元素除對資源進行描述和确認外,往往包括詳細的格式信息、制作信息、保護條件、轉換方式(Migration Methods)、保存責任等内容。

Metadata在不同領域的應用 根據不同領域的數據特點和應用需要,90年代以來,許多Metadata格式在各個不同領域出現

例如:

網絡資源:Dublin Core、IAFA Template、CDF、Web Collections

文獻資料:MARC(with 856 Field),Dublic Core

人文科學:TEI Header

社會科學數據集:ICPSR SGML Codebook

博物館與藝術作品:CIMI、CDWA、RLG REACH Element Set、VRA Core

政府信息:GILS

地理空間信息:FGDC/CSDGM

數字圖像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images

檔案庫與資源集合:EAD

技術報告:RFC 1807

連續圖像:MPEG-7

Metadata格式的應用程度

不同領域的Metadata處于不同的标準化階段:

在網絡資源描述方面,Dublin Core經過多年國際性努力,已經成為一個廣為接受和應用的事實标準;

在政府信息方面,由于美國政府大力推動和有關法律、标準的實行,GILS已經成為政府信息描述标準,并在世界若幹國家得到相當程度的應用,與此類似的還有地理空間信息處理的FGDC/CSDGM;

但在某些領域,由于技術的迅速發展變化,仍然存在多個方案競争,典型的是數字圖像的Metadata,現在提出的許多标準都處于實驗和完善的階段。

3.4 Metadata格式“标準化”程度問題

Metadata開發應用經驗表明,很難有一個統一的Metadata格式來滿足所有領域的數據描述需要;即使在同一個領域,也可能為了不同目的而需要不同的但可相互轉換的Metadata格式。

同時,統一的集中計劃式的Metadata格式标準也不适合Internet環境,不利于充分利用市場機制和各方面力量。

但在同一領域,應争取“标準化”,在不同領域,應妥善解決不同格式的互操作問題。

元數據結構

總體結構定義方式 一個Metadata格式由多層次的結構予以定義:

(1)内容結構(Content Structure),對該Metadata的構成元素及其定義标準進行描述。

(2)句法結構(Syntax Structure),定義Metadata結構p;  (3)語義結構(Semantic Structure),定義Metadata元素的具體描述方法。

内容結構

内容結構定義Metadata的構成元素,可包括: 描述性元素、技術性元素、管理性元素、結構性元素(例如與編碼語言、Namespace、數據單元等的鍊接)。

這些數據元素很可能依據一定标準來選取,因此元數據内容結構中需要對此進行說明,例如MARC記錄所依據的ISBD,EAD所參照的isad(G),ICPSR所依據的ICPSR Data Preparation Manual。

句法結構

句法結構定義格式結構及其描述方式,例如元素的分區分段組織、元素選取使用規則、元素描述方法(例如Dublin Core采用ISO/IEC 11179标準)、元素結構描述方法(例如MARC記錄結構、SGML結構、XML結構)、結構語句描述語言(例如EBNF Notation)等。

有時,句法結構需要指出元數據是否與所描述的數據對象捆綁在一起、或作為單獨數據存在但以一定形式與數據對象鍊接,還可能描述與定義标準、DTD結構和Namespace等的鍊接方式。

語義結構 語義結構定義元素的具體描述方法,例如 描述元素時所采用的标準、最佳實踐(Best Practices)或自定義的描述要求(Instructions)。

有些元數據格式本身定義了語義結構,而另外一些則由具體采用單位規定語義結構,例如Dublin Core建議日期元素采用ISO 8601、資源類型采用Dublin Core Types、數據格式可采用MIME、識别号采用URL或DOI或ISBN;

又如OhioLINK在使用VRA Core時要求主題元素使用A&AT、TGM和TGN,人名元素用uLan。

元數據編碼語言與制作方式

元數據編碼語言

元數據編碼語言(Metadata Encoding Languages)指對元數據元素和結構進行定義和描述的具體語法和語義規則,常稱為定義描述語言(DDL)。

在元數據發展初期人們常使用自定義的記錄語言(例如MARC)或數據庫記錄結構(如ROADS等),但随着元數據格式的增多和互操作的要求,人們開始采用一些标準化的DDL來描述元數據,例如SGML和XML,其中以XML最有潛力。

元數據制作方式

(1)專門編制模塊(例如對MARC、GILS、FGDC等)

(2)數據處理時自動編制(例如對Dublin Core等)

(3)數據物理處理時自動編制(例如數字圖像掃描時的某些元數據參數)

(4)共享元數據(例如OCLC/corc、IMESH

元數據互操作性

元數據互操作性問題

由于不同的領域(甚至同一領域)往往存在多個元數據格式,當在用不同元數據格式描述的資源體系之間進行檢索、資源描述和資源利用時,就存在元數據的互操作性問題(Interoperability):

多個不同元數據格式的釋讀、轉換和由多個元數據格式描述的數字化信息資源體系之間的透明檢索。

元數據格式映射

利用特定轉換程序對不同元數據元格式進行轉換,稱為元數據映射(Metadata Mapping/Crosswalking)。

目前已有大量的轉換程序存在,供若幹流行元數據格式之間的轉化,例如

Dublin Core與USMARC; Dublin Core與EAD

Dublin Core與GILS;  GILS與MARC TEI

Header與MARC FGDC與MARC

也可利用一種中介格式對同一格式框架下的多種元數據格式進行轉換,例如UNIverse項目利用GRS格式進行各種MARC格式和其它記錄格式的轉換。格式映射轉換準确、轉換效率較高。不過,這種方法在面對多種元數據格式并存的開放式環境中的應用效率明顯受到限制。

标準描述框架

解決元數據互操作性的另一種思路是建立一個标準的資源描述框架,用這個框架來描述所有元數據格式,那麼隻要一個系統能夠解析這個标準描述框架,就能解讀相應的Metadata格式. 實際上,XML和RDF從不同角度起着類似的作用。

XML通過其标準的DTD定義方式,允許所有能夠解讀XML語句的系統辨識用XML_DTD定義的Metadata格式,從而解決對不同格式的釋讀問題。

RDF定義了由Resources、Properties和Statements等三種對象組成的基本模型,其中Resources和Properties關系類似于E-R模型,而Statements則對該關系進行具體描述。

RDF通過這個抽象的數據模型為定義和使用元數據建立一個框架,元數據元素可看成其描述的資源的屬性。

進一步地,RDF定義了标準Schema,規定了聲明資源類型、聲明相關屬性及其語義的機制,以及定義屬性與其它資源間關系的方法。另外,RDF還規定了利用XML Namespace方法調用已有定義規範的機制,

數字對象方式

建立包含元數據及其轉換機制的數字對象可能從另一個角度解決元數據互操作性問題。

Cornell/FEDORA項目提出由内核(Structural Kernel)和功能傳播層(Disseminator Layer)組成的複合數字對象。

内核裡,可以容納以比特流形式存在的文獻内容、描述該文獻的元數據、以及對這個文獻及元數據進行存取控制的有關數據。

功能傳播層,主功能傳播器(PrimitiveDisseminator)支持有關解構内核數據類型和對内核數據讀取的服務功能,還可有内容類型傳播器(Content-Type Disseminators),它們可内嵌元數據格式轉換機制。

例如,在一個數字對象的内核中存有MARC格式的元數據,在功能傳播層裝載有請求Dublin Core格式及其轉換服務的内容類型傳播器。當數字對象使用者要求讀取以Dublin Core表示的元數據時,相應的内容類型傳?程序的數字對象,然後将被請求數字對象中的MARC形式元數據轉換為Dublin Core形式,在輸出給用戶。

建議

跟蹤元數據發展、積極參與制定元數據标準、加快元數據應用、注意國際接軌。

加快研究有效利用元數據進行檢索(包括異構系統透明檢索)、相關性學習、個性化處理等的機制。

加快研究元數據與數字對象和數字化資源體系有機整合的途徑與方法。

推進研究利用元數據進行基于知識的數據組織和知識發現。

上一篇:原子

下一篇:抗洪搶險

相關詞條

相關搜索

其它詞條