KDD:信息变为知识的过程-中文百科频道

简介

数据库知识发现（knowledse discovery in databases，KDD）的研究非常活跃。该术语于1989年出现，Fayyad定义为"KDD"是从数据集中识别出有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程”。在上面的定义中，涉及几个需要进一步解释的概念：“数据集”、“模式”、“过程”、“有效性”、“新颖性”、“潜在有用性”和“最终可理解性”。数据集是一组事实F（如关系数据库中的记录）。

模式是一个用语言L来表示的一个表达式E，它可用来描述数据集F的某个子集凡上作为一个模式要求它比对数据子集FE的枚举要简单（所用的描述信息量要少）。过程在KDD中通常指多阶段的处理，涉及数据准备、模式搜索、知识评价以及反复的修改求精；该过程要求是非平凡的，意思是要有一定程度的智能性、自动性（仅仅给出所有数据的总和不能算作是一个发现过程）。有效性是指发现的模式对于新的数据仍保持有一定的可信度。新颖性要求发现的模式应该是新的。

潜在有用性是指发现的知识将来有实际效用，如用于决策支持系统里可提高经济效益。最终可理解性要求发现的模式能被用户理解，目前它主要是体现在简洁性上。有效性、新颖性、潜在有用性和最终可理解性综合在一起称为兴趣性。

由于知识发现是一门受到来自各种不同领域的研究者关注的交叉性学科，因此导致了很多不同的术语名称。除了KDD外，主要还有如下若干种称法：

“数据挖掘”（data mining），“知识抽取”（information extraction）、“信息发现”（in1ormation discovery）、“智能数据分析”（intelligent data analysis）、“探索式数据分析”（exploratory data analysis）、“信息收获”（Information harvesting）和“数据考古”（data archedogy）等等。

其中，最常用的术语是“知识发现”和“数据挖掘”。相对来讲，数据挖掘主要流行于统计界（最早出现于统计文献中）、数据分析、数据库和管理信息系统界；而知识发现则主要流行于人工智能和机器学习界。

过程模型

常用KDD过程模型 (KDD process model)随着Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年总结出的KDD5个基本步骤, 各种不同的KDD过程模型在此基础上发展以及完善起来，整体来说,KDD过程模型包含"学术模型"(academic research model)以及"工业模型"(industrial model)两大类. 常见的KDD过程模型有：

1、1996年Fayyad等人提出的 "9 步骤模型"(nine-steps model)

2、1999年 european commission 机构起草的 CRISP-DM 模型. (cross-industry standard process for data mining)