返回
Featured image of post 连续型数值特征的分箱

连续型数值特征的分箱

无监督分箱

等频分箱

又称分位数分箱,将数据按值排序后分为N个区间,每个区间包含相同数量的样本

实现步骤:

  1. 将特征值从小到大排序
  2. 计算分位数位置:第i个分箱的边界为第(i/N)分位数
  3. 按分位数切分数据

优点:对异常值不敏感,保证每个箱体样本均衡 缺点:可能将相同值分到不同箱体,在长尾分布中效果不佳

等宽分箱

将特征值范围均匀划分为N个等宽区间

计算公式: 区间宽度 $W = \frac{Max - Min}{N}$ 第k个区间边界:$Min + k \times W$

优点:简单直观,计算效率高 缺点:对异常值敏感,容易产生空箱 适用场景:数据分布均匀,值域范围明确

聚类分箱

基于聚类算法(如K-Means)将相似值自动分组

实现步骤:

  1. 对特征值进行标准化
  2. 使用聚类算法寻找自然分组
  3. 按聚类中心排序后划分箱体边界

优势:适应数据分布,发现潜在模式 挑战:需要确定最佳聚类数量,计算成本较高 典型应用:处理复杂分布特征,如多峰分布数据

有监督分箱

卡方分箱

基于卡方检验的合并分箱方法,通过统计相邻区间的类别分布差异进行分箱

实现原理:

  1. 初始化:将特征值排序后,每个独立值视为一个区间
  2. 计算相邻区间卡方值:$\chi^2 = \sum\frac{(实际频数-期望频数)^2}{期望频数}$
  3. 合并策略:迭代合并卡方值最小的相邻区间,直到满足停止条件
  4. 停止条件:达到预设分箱数/卡方阈值/最小样本量限制

优点:保持统计显著性,适合处理类别型特征 缺点:需要预先排序,对稀疏小样本敏感 适用场景:分类问题中处理与目标变量有强关联的特征

决策树分箱

利用决策树模型自动寻找最优分裂点作为分箱边界

实现方法:

  1. 使用单变量决策树(仅用当前特征做分裂)
  2. 选择分裂准则:基尼系数/信息增益/卡方
  3. 递归分裂直到满足停止条件(最大深度/最小样本量)
  4. 提取树结构中的分裂阈值作为分箱边界

优势:与后续树模型保持一致性,自动处理非线性关系 缺点:容易过拟合,分箱结果受树参数影响大 典型应用:GBDT等树模型的特征预处理

最优KS分箱

通过最大化KS值(Kolmogorov-Smirnov statistic)确定最佳分箱点

计算过程:

  1. KS统计量:$KS = \max|F_{正样本}(x) - F_{负样本}(x)|$
  2. 搜索策略:遍历所有可能切分点,选择使KS最大的分割点
  3. 递归分割:对分割后的子区间重复上述过程
  4. 后处理:确保分箱后KS值保持单调性

优点:对正负样本分布差异敏感,解释性强 缺点:仅适用于二分类问题 行业应用:金融风控评分卡的核心分箱方法

信息增益分箱

基于信息熵的变化评估特征分裂的信息价值

分箱步骤:

  1. 计算原始熵:$H(Y) = -\sum p(y_i)\log p(y_i)$
  2. 计算条件熵:$H(Y|X) = \sum p(x_j)H(Y|x_j)$
  3. 信息增益:$IG = H(Y) - H(Y|X)$
  4. 分裂策略:选择使信息增益最大的分割点,递归分裂直到满足终止条件

优势:适合处理非线性关系,与信息论指标直接关联 缺点:对连续目标变量需要离散化处理 扩展应用:常与IV值(Information Value)结合用于特征筛选

分箱评估

WOE & IV 值

WOE(Weight of Evidence)和IV(Information Value)是评估分箱质量的重要指标。

WOE反映了每个分箱中正负样本的对数比值差异: $$WOE_i = \ln(\frac{neg_i/neg}{pos_i/pos})$$

其中:

  • $pos_i$、$neg_i$:第i个分箱中的正负样本数
  • $pos$、$neg$:总体正负样本数

IV值通过WOE加权求和,衡量特征整体的预测能力: $$IV = \sum_{i=1}^n (\frac{pos_i}{pos} - \frac{neg_i}{neg}) \cdot WOE_i$$

经验判断标准:

  • IV < 0.02:预测力极弱
  • 0.02 ≤ IV < 0.1:弱
  • 0.1 ≤ IV < 0.3:中等
  • 0.3 ≤ IV < 0.5:强
  • IV ≥ 0.5:极强

KS 检验

KS(Kolmogorov-Smirnov)检验通过计算正负样本累积分布函数的最大差值,评估特征的区分能力:

$$KS = \max_{x}|F_{pos}(x) - F_{neg}(x)|$$

其中$F_{pos}(x)$和$F_{neg}(x)$分别是正负样本在特征值x处的累积分布函数。

KS值判断标准:

  • KS < 0.2:区分度较弱
  • 0.2 ≤ KS < 0.3:一般
  • KS ≥ 0.3:区分度较强

单调性评估

分箱后WOE值的单调性是评估分箱质量的重要标准。理想的分箱结果应保持WOE值的单调递增或递减。

评估方法:

  1. 计算相邻分箱WOE差值:$\Delta WOE_i = WOE_{i+1} - WOE_i$
  2. 统计差值符号变化次数
  3. 计算单调性指标:$M = 1 - \frac{符号变化次数}{n-2}$,n为分箱数

单调性指标M越接近1,表示分箱结果的单调性越好。实践中通常要求M≥0.95。

© 2023 - 2025 壹壹贰捌· 0Days
共书写了258.6k字·共 93篇文章 京ICP备2023035941号-1