Twitch表情中的情绪分析( 二 )


在2010年早些时候 , Furie创作的卡通青蛙形象被4chan(外网匿名论坛)等各种线上论坛中的右翼用作宣传 。 而从那时起 , Furie一直在努力赢回青蛙Pepe本身的意义 , 而在Twitch上 , 大量非仇恨、积极的青蛙表情成为了主流 , 让快乐蛙和它对应的悲伤蛙用法更加倾向表情的字面意义 。
后续麻烦
这种梗图的常见表达含义在爆红后又转换的情况经常会让NLP研究项目进展受挫 。 毕竟这些表情已经被打上了“仇恨”或者“民族主义(US)”这类标签 , 并且打包扔进了长期开源仓库里 。 后续使用这些数据的NLP研究项目可能并不会检查数据的正确性 , 有的会是因为没有数据审计的手段 , 有的则可能是压根没意识到审计的需要 。
这种过期标签的后果很明显 , 如果在2017年使用Twitch表情数据集来训练一个“政治分类”的算法 , 那么归功于悲伤蛙表情的大量使用 , 我们将观测到Twitch上有非常明显的极右翼倾向 。 当然 , 也许Twitch确实充满了极右翼的主播们 , 但你并不能靠青蛙头来验证这点 。
悲伤蛙梗图的政治意义似乎被Twitch上1.4亿的用户(其中41%的用户未满24岁不客气地抛弃了 。 他们不约而同地从盗图的政治家手中非常效率地将青蛙Pepe夺了回来 , 重新用自己的方式将其定义 。
方法和数据
研究者们发现带标签的Twitch颜文字数据集“几乎不存在” , 虽然先前有研究称他们共使用了八百万的Twitch表情 , 而其中40万都是在同一周内造出来的 。
2017年的一份预测Twitch上流行颜文字的研究] , 在将预测范围限制在了前30后 , 仍然只有0.39的得分 。
为应对这一难题 , 旧金山的研究者对旧数据使用了新方法 , 将训练集和测试集的比例分成了80/20 , 并采用了朴素贝叶斯 , 随机森林(RF)、支持向量(SVM , 用线性核) , 以及逻辑回归(LogisticRegression) , 这些之前并未在Twitch数据中使用过的“传统”机器学习算法 。
这种算法的性能和先前研究的基准线相比高出了63.8% , 而研究人员借此开发的LOOVE(“从词汇中学习情绪”的英文缩写)框架做到了新词汇的识别 , 并将这些全新的定义添加到现有的模型中 。
Twitch表情中的情绪分析
文章图片
研究人员开发的LOOVE(LearningOutOfVocabularyEmotions)框架结构
LOOVE在无监督训练嵌入词上大展身手 , 通过定期再训练和微调避免了对标记数据集的需求 。 考虑到表情的数量和其演化的速度 , 实时更新标记数据集非常的不现实 。
在项目中 , 研究者们用一个未标记的Twitch数据集训练一个颜文字的“伪字典” , 在训练过程中 , 模型生成了444,714个单词、颜文字和emoji的嵌入 。
此外 , 他们在VADER词典中新增了emoji和表情符号词汇 , 除了之前提到的EC数据集之外 , 他们还利用来自推特、烂番茄和YELP(外网一美食点评网站)采样这三个公开可用的数据集进行三元感情的分类 。
由于项目中使用了不止一种方法和数据集 , 其结果也各不相同 , 但可以肯定的是 , 项目中表现最优的基准线比先前研究要高出7.36个百分点 。
研究者认为 , 该项目的后续价值是在于LOOVE框架的继续开发 , 借助K最邻近法(KNN)和word-to-vector(W2V)的嵌入训练Twitch上超过3.31亿条的聊天数据 。
论文作者总结道:框架背后的功能驱动是可用于预测未知表情情感的颜文字的伪词典 。 利用这个颜文字的伪词典 , 我们创建了一个包含22,507个表情的情绪表 , 可以说是第一个如此规模的颜文字解读案例 。
https://www.unite.ai/understanding-twitch-emotes-in-sentiment-analysis/