数据挖掘整理

Veröffentlicht am 2019-08-17 | in Data Mining

数据挖掘整理

1.数据的基本描述

1.1 中心趋势度量

均值
截尾均值：丢弃高低端极端值后的均值
中位数：有序数据值得中间值
众数：集合中出现最频繁的值
中列数：最大值和最小值的平均值

1.2 数据散布

极差：最大值与最小值之差
分位数：取自数据分布的每隔一定间隔上的点，把数据划分成基本上大小相等的连贯集合
四分位数：3个数据点，把数据分布划分成4个相等的部分，使得每部分表示数据分布的四分之一。（中位数、四分位数、百分位数是使用广泛的分位数）
方差
标准差
四分位数极差（IQR）：第1个和第3个四分位数之间的距离，IQR = Q3 - Q1

识别可疑的离群点的通畅规则是，挑选落在第3个四分位数之上或第一个四分位数之下至少1.5*IQR处的值。

图形的表示

a)盒图：盒的端点一般在四分位数上，使得盒的长度是四分位数极差IQR。中位数用盒内的线标记。盒外的两条线延伸到最小和最大观测值。
b)分位数图：一种观察单变量数据分布的简单有效方法
c)直方图：
d)散点图：确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一

1.3 相似性的度量

Jaccard相似性
余弦相似性
欧式距离、曼哈顿距离、闵可夫斯基距离

2.数据预处理

2.1数据清洗：填写缺失值、光滑噪声数据，识别或删除离群点，并解决不一致性来“清理”数据

缺失值的处理：忽略该行、人工填写缺失值、使用一个全局常量填充、使用属性的中心度量（均值或中位数）、使用与给定元组属同一类的所有样本的均值或中位数、使用最可能的值填充缺失值（使用回归、使用贝叶斯形式方法的基于推理的工具或决策树归纳确定）

2.2数据集成：分析中的数据来自多个数据源

冗余和相关性分析：标称数据的卡方相关检验、Pearson相关系数、协方差

2.3数据归约：维归约和数值归约

2.4数据变换：

光滑：去掉噪声
属性构造：可以由给定的属性构造新的属性并添加到属性集中
聚集：对数据进行汇总或聚集
规范化：把属性数据按比例缩放
离散化：label encoder 、onehot
由标称数据产生概念分层：属性层级划分