簡介
數據庫知識發現(knowledse discovery in databases,KDD)的研究非常活躍。該術語于1989年出現,Fayyad定義為"KDD"是從數據集中識别出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程”。在上面的定義中,涉及幾個需要進一步解釋的概念:“數據集”、“模式”、“過程”、“有效性”、“新穎性”、“潛在有用性”和“最終可理解性”。數據集是一組事實F(如關系數據庫中的記錄)。
模式是一個用語言L來表示的一個表達式E,它可用來描述數據集F的某個子集凡上作為一個模式要求它比對數據子集FE的枚舉要簡單(所用的描述信息量要少)。過程在KDD中通常指多階段的處理,涉及數據準備、模式搜索、知識評價以及反複的修改求精;該過程要求是非平凡的,意思是要有一定程度的智能性、自動性(僅僅給出所有數據的總和不能算作是一個發現過程)。有效性是指發現的模式對于新的數據仍保持有一定的可信度。新穎性要求發現的模式應該是新的。
潛在有用性是指發現的知識将來有實際效用,如用于決策支持系統裡可提高經濟效益。最終可理解性要求發現的模式能被用戶理解,目前它主要是體現在簡潔性上。有效性、新穎性、潛在有用性和最終可理解性綜合在一起稱為興趣性。
由于知識發現是一門受到來自各種不同領域的研究者關注的交叉性學科,因此導緻了很多不同的術語名稱。除了KDD外,主要還有如下若幹種稱法:
“數據挖掘”(data mining),“知識抽取”(information extraction)、“信息發現”(in1ormation discovery)、“智能數據分析”(intelligent data analysis)、“探索式數據分析”(exploratory data analysis)、“信息收獲”(Information harvesting)和“數據考古”(data archedogy)等等。
其中,最常用的術語是“知識發現”和“數據挖掘”。相對來講,數據挖掘主要流行于統計界(最早出現于統計文獻中)、數據分析、數據庫和管理信息系統界;而知識發現則主要流行于人工智能和機器學習界。
過程模型
常用KDD過程模型 (KDD process model)随着Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年總結出的KDD5個基本步驟, 各種不同的KDD過程模型在此基礎上發展以及完善起來,整體來說,KDD過程模型包含"學術模型"(academic research model)以及"工業模型"(industrial model)兩大類. 常見的KDD過程模型有:
1、1996年Fayyad等人提出的 "9 步驟模型"(nine-steps model)
2、1999年 european commission 機構起草的 CRISP-DM 模型. (cross-industry standard process for data mining)
網站名
快典網(kdd.cc)中文為"快點點"諧音,是一個以中文為基礎,包括中文、英文、日文、法文、德文、俄文、藏文、彜文、韓文等多種語言的文字工具網站,



















