Duncan's Blog

IV值和WOE值记录

IV和WOE记录

IV (Information Value)

1)用途:评价特征或变量的预测能力。类似的指标还有信息增益 、增益率和基尼系数等

2)IV的计算依赖于WOE

WOE(Weight of Evidence)

1)要对一个变量进行WOE编码,需要把这个变量进行分组处理(离散化 / 分箱),分组后对于第i组,WOE的计算公式如下:

其中,$py_i$是这个组中响应客户占所有样本中响应客户的比例,$pn_i$是这个组中未响应客户样本中未响应客户的比例。

所以,WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和”当前分组中没有响应的客户占所有没响应的客户的比例“的差异

IV的计算

其中,n为变量分组的个数。

为什么使用IV而不是直接用WOE

  • 1.IV和WOE的差别在于IV在WOE基础上乘以($py_i-pn_i$)- $pyn$ ,乘以了这个$pyn$变量保证了每个分组的结果都是非负数
  • 2.乘以$pyn$后,体现出了变量当前分组中个体的数量占整体个体数量的比例,对变量预测能力的影响。

IV的极端情况处理

  • 1.合理分组
  • 2.0 —> 1
分享