|11个常见的分类特征的编码技术( 三 )

9、James Stein EncodingJames-Stein 为特征值提供以下加权平均值：

观察到的特征值的平均目标值。
平均期望值（与特征值无关）。

James-Stein 编码器将平均值缩小到全局的平均值。该编码器是基于目标的。但是James-Stein 估计器有缺点：它只支持正态分布。
它只能在给定正态分布的情况下定义（实时情况并非如此）。为了防止这种情况，我们可以使用 beta 分布或使用对数-比值比转换二元目标，就像在 WOE 编码器中所做的那样（默认使用它，因为它很简单）。
10、M Estimator Encoding:Target Encoder的一个更直接的变体是M Estimator Encoding 。它只包含一个超参数m ，它代表正则化幂。
m值越大收缩越强。建议m的取值范围为1 ~ 100 。
11、 Sum EncoderSum Encoder将类别列的特定级别的因变量(目标)的平均值与目标的总体平均值进行比较。在线性回归(LR)的模型中， Sum Encoder和ONE HOT ENCODING都是常用的方法。两种模型对LR系数的解释是不同的， Sum Encoder模型的截距代表了总体平均值(在所有条件下) ，而系数很容易被理解为主要效应。在OHE模型中，截距代表基线条件的平均值，系数代表简单效应(一个特定条件与基线之间的差) 。
最后，在编码中我们用到了一个非常好用的Python包 “category-encoders”它还提供了其他的编码方法，如果你对他感兴趣，请查看它的官方文档：
https://avoid.overfit.cn/post/2ebd057b56cd4b54a666de6dd4ed6294
作者：saksham saxena