Data Mining:Introduction
数据挖掘:简介
1 什么是数据挖掘
数据挖掘:将大量的数据转换为实际意义的规则和模式。
特点:
- 前提:有大量的数据
- 预测性:将数据转换为有意义的模式的目的是预测
- 模型:转换的技术主要依靠建模
2 回归
数据挖掘算法
线性回归多变量模型
- 回归
- 分类 分类树 决策树
- 群集
- 最近邻
3 分类
训练集:用于建立模型
测试集:测试模型的准确性 占已知输出值数据的20%
过拟合
假正
假负
修剪:一棵树leaves = rows * attributes 这样的树没有意义,希望树的枝和叶都尽量少,预测结果尽量准确。
必须为数据选择有合适的模型才能获得有意义的信息。
- 基于判定树的归纳分类
- 基于人工神经网络的分类
- 基于统计的贝叶斯分类
- 基于遗传算法的分类
- 基于模糊集的分类
- 基于关联规则的分类
4 群集
5 最近邻
基于数据挖掘(遗传神经网络)的入侵检测技术