|11个常见的分类特征的编码技术( 三 )


9、James Stein EncodingJames-Stein 为特征值提供以下加权平均值:

  • 观察到的特征值的平均目标值 。
  • 平均期望值(与特征值无关) 。
James-Stein 编码器将平均值缩小到全局的平均值 。该编码器是基于目标的 。但是James-Stein 估计器有缺点:它只支持正态分布 。
它只能在给定正态分布的情况下定义(实时情况并非如此) 。 为了防止这种情况 , 我们可以使用 beta 分布或使用对数-比值比转换二元目标 , 就像在 WOE 编码器中所做的那样(默认使用它 , 因为它很简单) 。
10、M Estimator Encoding:Target Encoder的一个更直接的变体是M Estimator Encoding 。 它只包含一个超参数m , 它代表正则化幂 。
m值越大收缩越强 。 建议m的取值范围为1 ~ 100 。
11、 Sum EncoderSum Encoder将类别列的特定级别的因变量(目标)的平均值与目标的总体平均值进行比较 。 在线性回归(LR)的模型中 , Sum Encoder和ONE HOT ENCODING都是常用的方法 。 两种模型对LR系数的解释是不同的 , Sum Encoder模型的截距代表了总体平均值(在所有条件下) , 而系数很容易被理解为主要效应 。 在OHE模型中 , 截距代表基线条件的平均值 , 系数代表简单效应(一个特定条件与基线之间的差) 。
最后 , 在编码中我们用到了一个非常好用的Python包 “category-encoders”它还提供了其他的编码方法 , 如果你对他感兴趣 , 请查看它的官方文档:
https://avoid.overfit.cn/post/2ebd057b56cd4b54a666de6dd4ed6294
作者:saksham saxena