Duncan's Blog

数据挖掘整理

数据挖掘整理

1.数据的基本描述

1.1 中心趋势度量

  • 均值
  • 截尾均值:丢弃高低端极端值后的均值
  • 中位数:有序数据值得中间值
  • 众数:集合中出现最频繁的值
  • 中列数:最大值和最小值的平均值

1.2 数据散布

  • 极差:最大值与最小值之差

  • 分位数:取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合

  • 四分位数:3个数据点,把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。(中位数、四分位数、百分位数是使用广泛的分位数)

  • 方差

  • 标准差

  • 四分位数极差(IQR):第1个和第3个四分位数之间的距离,IQR = Q3 - Q1

    识别可疑的离群点的通畅规则是,挑选落在第3个四分位数之上第一个四分位数之下至少1.5*IQR处的值。


    图形的表示


  • a)盒图:盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR。中位数用盒内的线标记。盒外的两条线延伸到最小和最大观测值。

  • b)分位数图:一种观察单变量数据分布的简单有效方法

  • c)直方图:

  • d)散点图:确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一

1.3 相似性的度量

  • Jaccard相似性
  • 余弦相似性
  • 欧式距离、曼哈顿距离、闵可夫斯基距离

2.数据预处理

2.1数据清洗:填写缺失值、光滑噪声数据,识别或删除离群点,并解决不一致性来“清理”数据

  • 缺失值的处理:忽略该行、人工填写缺失值、使用一个全局常量填充、使用属性的中心度量(均值或中位数)、使用与给定元组属同一类的所有样本的均值或中位数、使用最可能的值填充缺失值(使用回归、使用贝叶斯形式方法的基于推理的工具或决策树归纳确定)

2.2数据集成:分析中的数据来自多个数据源

  • 冗余和相关性分析:标称数据的卡方相关检验、Pearson相关系数、协方差

2.3数据归约:维归约和数值归约

2.4数据变换

  • 光滑:去掉噪声
  • 属性构造:可以由给定的属性构造新的属性并添加到属性集中
  • 聚集:对数据进行汇总或聚集
  • 规范化:把属性数据按比例缩放
  • 离散化:label encoder 、onehot
  • 由标称数据产生概念分层:属性层级划分
分享