数据挖掘:简介

1 什么是数据挖掘

数据挖掘:将大量的数据转换为实际意义的规则和模式。

特点:

  • 前提:有大量的数据
  • 预测性:将数据转换为有意义的模式的目的是预测
  • 模型:转换的技术主要依靠建模

2 回归

数据挖掘算法

线性回归多变量模型

  • 回归
  • 分类 分类树 决策树
  • 群集
  • 最近邻

3 分类

训练集:用于建立模型

测试集:测试模型的准确性 占已知输出值数据的20%

过拟合

假正

假负

修剪:一棵树leaves = rows * attributes 这样的树没有意义,希望树的枝和叶都尽量少,预测结果尽量准确。

必须为数据选择有合适的模型才能获得有意义的信息。

  • 基于判定树的归纳分类
  • 基于人工神经网络的分类
  • 基于统计的贝叶斯分类
  • 基于遗传算法的分类
  • 基于模糊集的分类
  • 基于关联规则的分类

4 群集

5 最近邻

基于数据挖掘(遗传神经网络)的入侵检测技术