|11个常见的分类特征的编码技术( 三 )
9、James Stein EncodingJames-Stein 为特征值提供以下加权平均值:
- 观察到的特征值的平均目标值 。
- 平均期望值(与特征值无关) 。
它只能在给定正态分布的情况下定义(实时情况并非如此) 。 为了防止这种情况 , 我们可以使用 beta 分布或使用对数-比值比转换二元目标 , 就像在 WOE 编码器中所做的那样(默认使用它 , 因为它很简单) 。
10、M Estimator Encoding:Target Encoder的一个更直接的变体是M Estimator Encoding 。 它只包含一个超参数m , 它代表正则化幂 。
m值越大收缩越强 。 建议m的取值范围为1 ~ 100 。
11、 Sum EncoderSum Encoder将类别列的特定级别的因变量(目标)的平均值与目标的总体平均值进行比较 。 在线性回归(LR)的模型中 , Sum Encoder和ONE HOT ENCODING都是常用的方法 。 两种模型对LR系数的解释是不同的 , Sum Encoder模型的截距代表了总体平均值(在所有条件下) , 而系数很容易被理解为主要效应 。 在OHE模型中 , 截距代表基线条件的平均值 , 系数代表简单效应(一个特定条件与基线之间的差) 。
最后 , 在编码中我们用到了一个非常好用的Python包 “category-encoders”它还提供了其他的编码方法 , 如果你对他感兴趣 , 请查看它的官方文档:
https://avoid.overfit.cn/post/2ebd057b56cd4b54a666de6dd4ed6294
作者:saksham saxena
- |一个时代的落幕:明年2月起,微软Windows 10将永久禁用IE11
- 手机行业|齿谐波,在电机运行中的具体表现有哪些?
- 比亚迪|有技术护城河的比亚迪跟进特斯拉“官降”?经销商:双11促销活动
- 音响|烧友的第一套音响怎么选?绝不踩雷的平价音响套装不可错过
- |大数据和云计算的发展
- |可以K歌的智能屏,添添旋转智能屏T10
- 鼠标|艺术加持科技!这次整点不一样的跨界新玩法!
- 双十一|iPhone 14在双11期间翻身了,销量数据喜人,如何翻身的?
- 双11最后一天|双11最划算的三款手机,预算2k以内首选,错过等明年
- 荣光|小米逐渐变更路线,旗舰走中端旗舰的道路,结局只会两败俱伤