IV和WOE记录
IV (Information Value)
1)用途:评价特征或变量的预测能力。类似的指标还有信息增益 、增益率和基尼系数等
2)IV的计算依赖于WOE
WOE(Weight of Evidence)
1)要对一个变量进行WOE编码,需要把这个变量进行分组处理(离散化 / 分箱),分组后对于第i组,WOE的计算公式如下:
其中,$py_i$是这个组中响应客户占所有样本中响应客户的比例,$pn_i$是这个组中未响应客户占样本中未响应客户的比例。
所以,WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和”当前分组中没有响应的客户占所有没响应的客户的比例“的差异
IV的计算
其中,n为变量分组的个数。
为什么使用IV而不是直接用WOE
- 1.IV和WOE的差别在于IV在WOE基础上乘以($py_i-pn_i$)- $pyn$ ,乘以了这个$pyn$变量保证了每个分组的结果都是非负数。
- 2.乘以$pyn$后,体现出了变量当前分组中个体的数量占整体个体数量的比例,对变量预测能力的影响。
IV的极端情况处理
- 1.合理分组
- 2.0 —> 1