数据挖掘整理
1.数据的基本描述
1.1 中心趋势度量
- 均值
- 截尾均值:丢弃高低端极端值后的均值
- 中位数:有序数据值得中间值
- 众数:集合中出现最频繁的值
- 中列数:最大值和最小值的平均值
1.2 数据散布
极差:最大值与最小值之差
分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合
四分位数:3个数据点,把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。(中位数、四分位数、百分位数是使用广泛的分位数)
方差
标准差
四分位数极差(IQR):第1个和第3个四分位数之间的距离,IQR = Q3 - Q1
识别可疑的离群点的通畅规则是,挑选落在第3个四分位数之上或第一个四分位数之下至少1.5*IQR处的值。
图形的表示
a)盒图:盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR。中位数用盒内的线标记。盒外的两条线延伸到最小和最大观测值。
b)分位数图:一种观察单变量数据分布的简单有效方法
c)直方图:
d)散点图:确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一
1.3 相似性的度量
- Jaccard相似性
- 余弦相似性
- 欧式距离、曼哈顿距离、闵可夫斯基距离
2.数据预处理
2.1数据清洗:填写缺失值、光滑噪声数据,识别或删除离群点,并解决不一致性来“清理”数据
- 缺失值的处理:忽略该行、人工填写缺失值、使用一个全局常量填充、使用属性的中心度量(均值或中位数)、使用与给定元组属同一类的所有样本的均值或中位数、使用最可能的值填充缺失值(使用回归、使用贝叶斯形式方法的基于推理的工具或决策树归纳确定)
2.2数据集成:分析中的数据来自多个数据源
- 冗余和相关性分析:标称数据的卡方相关检验、Pearson相关系数、协方差
2.3数据归约:维归约和数值归约
2.4数据变换:
- 光滑:去掉噪声
- 属性构造:可以由给定的属性构造新的属性并添加到属性集中
- 聚集:对数据进行汇总或聚集
- 规范化:把属性数据按比例缩放
- 离散化:label encoder 、onehot
- 由标称数据产生概念分层:属性层级划分