• 商业智能、数据仓库、数据挖掘

    • 商业智能(Business Intelligence, BI):相比于数据仓库、数据挖掘,它是一个更大的概念。商业智能可以说是基于数据仓库,经过了数据挖掘后,得到了商业价值的过程。所以说数据仓库是个金矿,数据挖掘是炼金术,而商业报告则是黄金。
    • 数据仓库(Data Warehouse, DW):它可以说是 BI 这个房子的地基,搭建好 DW 这个地基之后,才能进行分析使用,最后产生价值。据仓库将原有的多个数据来源中的数据进行汇总、整理而得。数据进入数据仓库前,必须消除数据中的不一致性,方便后续进行数据分析和挖掘。
    • 数据挖掘(Data Mining,DM):在商业智能 BI 中经常会使用到数据挖掘技术。数据挖掘的核心包括分类、聚类、预测、关联分析等任务,通过这些炼金术,我们可以从数据仓库中得到宝藏,比如商业报告。
    • 通俗来说,假如你认识了两个漂亮的女孩。商业智能会告诉你要追哪个?成功概率有多大?数据仓库会说,我这里存储了这两个女孩的相关信息,你要吗?数据挖掘会帮助你确定追哪个女孩,并且整理好数据仓库,这里就可以使用到各种算法,帮你做决策了。
  • 数据元VS元数据

    • 数据元(MetaData):描述其它数据的数据,也称为"中介数据"
    • 元数据(Data Element):就是最小数据单元
    • 比如:一本图书的信息包括了书名、作者、出版社、ISBN、出版时间、页数和定价等多个属性的信息,我们就可以把这些属性定义成一套图书的元数据。
  • 数据挖掘流程

    • 数据挖掘的一个英文解释叫 Knowledge Discovery in Database,简称 KDD,也就是数据库中的知识发现。
    • 分类
      • 就是通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类。一般来说数据可以划分为训练集和测试集。训练集是用来给机器做训练的,通常是人们整理好训练数据,以及这些数据对应的分类标识。通过训练,机器就产生了自我分类的模型,然后机器就可以拿着这个分类模型,对测试集中的数据进行分类预测。同样如果测试集中,人们已经给出了测试结果,我们就可以用测试结果来做验证,从而了解分类器在测试环境下的表现。
    • 聚类
      • 人以群分,物以类聚。聚类就是将数据自动聚类成几个类别,聚到一起的相似度大,不在一起的差异性大。我们往往利用聚类来做数据划分。
    • 预测
      • 通过当前和历史数据来预测未来趋势,它可以更好地帮助我们识别机遇和风险。
    • 关联分析
      • 发现数据中的关联规则,它被广泛应用在购物篮分析,或事务数据分析中。
  • 数据库中知识发现过程

    • 输入数据--->数据预处理--->数据挖掘--->后处理--->信息
    • 预处理
      • 数据清洗:为了去除重复数据,去噪声(即干扰数据)以及填充缺失值;
      • 数据集成:将多个数据源中的数据存放在一个统一的数据存储中;
      • 数据变换:将数据转换成适合数据挖掘的形式。比如,通过归一化将属性数据按照比例缩放,这样就可以将数值落入一个特定的区间内,比如 0~1 之间。
    • 后处理
      • 将模型预测的结果进一步处理后,再导出。比如在二分类问题中,一般能得到的是 0~1 之间的概率值,此时把数据以 0.5 为界限进行四舍五入就可以实现后处理。