什么是数据挖掘?
数据挖掘是指对大量数据集进行分类的自动化过程,从而通过数据分析来识别趋势和模式,并建立关系来解决业务问题。换句话说,数据挖掘是从大量不完整的、有噪声的、模糊的、随机的数据中提取隐藏的、未知的、但潜在有用的信息和知识的过程。
原则上,数据挖掘可以应用于任何类型的信息库和瞬态数据(如数据流),如数据库、数据仓库、数据集市、交易数据库、空间数据库(如地图)、工程设计数据(如建筑设计)、多媒体数据(如文本、图像、视频和音频)、网络、数据流和时间序列数据库。因此,数据挖掘具有以下特征:
(1)数据集很大且不完整。
数据挖掘需要的数据集非常大。只有数据集越大,得到的规律越接近正确的实际规律,结果越准确。此外,数据往往不完整。
(2)不准确
数据挖掘不准确,主要是噪音数据造成的。比如在商业上,用户可能提供虚假数据;在工厂环境中,正常数据经常会受到电磁或辐射干扰,从而导致数据异常。这些异常的、绝对不可能的数据被称为噪声,会导致数据挖掘的不准确。
(3)模糊性和随机性
数据挖掘具有模糊性和随机性。这里的歧义可能与不准确有关。因为数据不准确,我们只能从整体上观察数据,或者因为私人信息无法得知一些具体内容。这时候如果要做相关的分析操作,只能做一些笼统的分析,无法做出准确的判断。
数据的随机性有两种解释。一个是获得的数据是随机的;我们无法知道用户填了什么。第二是分析结果是随机的。数据交给机器去判断和学习,所以所有操作都属于灰箱操作。