无监督分箱
等频分箱
又称分位数分箱,将数据按值排序后分为N个区间,每个区间包含相同数量的样本
实现步骤:
- 将特征值从小到大排序
- 计算分位数位置:第i个分箱的边界为第(i/N)分位数
- 按分位数切分数据
优点:对异常值不敏感,保证每个箱体样本均衡 缺点:可能将相同值分到不同箱体,在长尾分布中效果不佳
等宽分箱
将特征值范围均匀划分为N个等宽区间
计算公式: 区间宽度 $W = \frac{Max - Min}{N}$ 第k个区间边界:$Min + k \times W$
优点:简单直观,计算效率高 缺点:对异常值敏感,容易产生空箱 适用场景:数据分布均匀,值域范围明确
聚类分箱
基于聚类算法(如K-Means)将相似值自动分组
实现步骤:
- 对特征值进行标准化
- 使用聚类算法寻找自然分组
- 按聚类中心排序后划分箱体边界
优势:适应数据分布,发现潜在模式 挑战:需要确定最佳聚类数量,计算成本较高 典型应用:处理复杂分布特征,如多峰分布数据
有监督分箱
卡方分箱
基于卡方检验的合并分箱方法,通过统计相邻区间的类别分布差异进行分箱
实现原理:
- 初始化:将特征值排序后,每个独立值视为一个区间
- 计算相邻区间卡方值:$\chi^2 = \sum\frac{(实际频数-期望频数)^2}{期望频数}$
- 合并策略:迭代合并卡方值最小的相邻区间,直到满足停止条件
- 停止条件:达到预设分箱数/卡方阈值/最小样本量限制
优点:保持统计显著性,适合处理类别型特征 缺点:需要预先排序,对稀疏小样本敏感 适用场景:分类问题中处理与目标变量有强关联的特征
决策树分箱
利用决策树模型自动寻找最优分裂点作为分箱边界
实现方法:
- 使用单变量决策树(仅用当前特征做分裂)
- 选择分裂准则:基尼系数/信息增益/卡方
- 递归分裂直到满足停止条件(最大深度/最小样本量)
- 提取树结构中的分裂阈值作为分箱边界
优势:与后续树模型保持一致性,自动处理非线性关系 缺点:容易过拟合,分箱结果受树参数影响大 典型应用:GBDT等树模型的特征预处理
最优KS分箱
通过最大化KS值(Kolmogorov-Smirnov statistic)确定最佳分箱点
计算过程:
- KS统计量:$KS = \max|F_{正样本}(x) - F_{负样本}(x)|$
- 搜索策略:遍历所有可能切分点,选择使KS最大的分割点
- 递归分割:对分割后的子区间重复上述过程
- 后处理:确保分箱后KS值保持单调性
优点:对正负样本分布差异敏感,解释性强 缺点:仅适用于二分类问题 行业应用:金融风控评分卡的核心分箱方法
信息增益分箱
基于信息熵的变化评估特征分裂的信息价值
分箱步骤:
- 计算原始熵:$H(Y) = -\sum p(y_i)\log p(y_i)$
- 计算条件熵:$H(Y|X) = \sum p(x_j)H(Y|x_j)$
- 信息增益:$IG = H(Y) - H(Y|X)$
- 分裂策略:选择使信息增益最大的分割点,递归分裂直到满足终止条件
优势:适合处理非线性关系,与信息论指标直接关联 缺点:对连续目标变量需要离散化处理 扩展应用:常与IV值(Information Value)结合用于特征筛选
分箱评估
WOE & IV 值
WOE(Weight of Evidence)和IV(Information Value)是评估分箱质量的重要指标。
WOE反映了每个分箱中正负样本的对数比值差异: $$WOE_i = \ln(\frac{neg_i/neg}{pos_i/pos})$$
其中:
- $pos_i$、$neg_i$:第i个分箱中的正负样本数
- $pos$、$neg$:总体正负样本数
IV值通过WOE加权求和,衡量特征整体的预测能力: $$IV = \sum_{i=1}^n (\frac{pos_i}{pos} - \frac{neg_i}{neg}) \cdot WOE_i$$
经验判断标准:
- IV < 0.02:预测力极弱
- 0.02 ≤ IV < 0.1:弱
- 0.1 ≤ IV < 0.3:中等
- 0.3 ≤ IV < 0.5:强
- IV ≥ 0.5:极强
KS 检验
KS(Kolmogorov-Smirnov)检验通过计算正负样本累积分布函数的最大差值,评估特征的区分能力:
$$KS = \max_{x}|F_{pos}(x) - F_{neg}(x)|$$
其中$F_{pos}(x)$和$F_{neg}(x)$分别是正负样本在特征值x处的累积分布函数。
KS值判断标准:
- KS < 0.2:区分度较弱
- 0.2 ≤ KS < 0.3:一般
- KS ≥ 0.3:区分度较强
单调性评估
分箱后WOE值的单调性是评估分箱质量的重要标准。理想的分箱结果应保持WOE值的单调递增或递减。
评估方法:
- 计算相邻分箱WOE差值:$\Delta WOE_i = WOE_{i+1} - WOE_i$
- 统计差值符号变化次数
- 计算单调性指标:$M = 1 - \frac{符号变化次数}{n-2}$,n为分箱数
单调性指标M越接近1,表示分箱结果的单调性越好。实践中通常要求M≥0.95。