Twitch表情中的情绪分析( 二 ) 作者|MartinAnderson译者|马可薇策

在2010年早些时候， Furie创作的卡通青蛙形象被4chan（外网匿名论坛）等各种线上论坛中的右翼用作宣传。而从那时起， Furie一直在努力赢回青蛙Pepe本身的意义，而在Twitch上，大量非仇恨、积极的青蛙表情成为了主流，让快乐蛙和它对应的悲伤蛙用法更加倾向表情的字面意义。
后续麻烦
这种梗图的常见表达含义在爆红后又转换的情况经常会让NLP研究项目进展受挫。毕竟这些表情已经被打上了“仇恨”或者“民族主义(US)”这类标签，并且打包扔进了长期开源仓库里。后续使用这些数据的NLP研究项目可能并不会检查数据的正确性，有的会是因为没有数据审计的手段，有的则可能是压根没意识到审计的需要。
这种过期标签的后果很明显，如果在2017年使用Twitch表情数据集来训练一个“政治分类”的算法，那么归功于悲伤蛙表情的大量使用，我们将观测到Twitch上有非常明显的极右翼倾向。当然，也许Twitch确实充满了极右翼的主播们，但你并不能靠青蛙头来验证这点。
悲伤蛙梗图的政治意义似乎被Twitch上1.4亿的用户（其中41%的用户未满24岁不客气地抛弃了。他们不约而同地从盗图的政治家手中非常效率地将青蛙Pepe夺了回来，重新用自己的方式将其定义。
方法和数据
研究者们发现带标签的Twitch颜文字数据集“几乎不存在” ，虽然先前有研究称他们共使用了八百万的Twitch表情，而其中40万都是在同一周内造出来的。
2017年的一份预测Twitch上流行颜文字的研究] ，在将预测范围限制在了前30后，仍然只有0.39的得分。
为应对这一难题，旧金山的研究者对旧数据使用了新方法，将训练集和测试集的比例分成了80/20 ，并采用了朴素贝叶斯，随机森林（RF）、支持向量（SVM ，用线性核），以及逻辑回归（LogisticRegression），这些之前并未在Twitch数据中使用过的“传统”机器学习算法。
这种算法的性能和先前研究的基准线相比高出了63.8% ，而研究人员借此开发的LOOVE（“从词汇中学习情绪”的英文缩写）框架做到了新词汇的识别，并将这些全新的定义添加到现有的模型中。

文章图片
研究人员开发的LOOVE（LearningOutOfVocabularyEmotions）框架结构
LOOVE在无监督训练嵌入词上大展身手，通过定期再训练和微调避免了对标记数据集的需求。考虑到表情的数量和其演化的速度，实时更新标记数据集非常的不现实。
在项目中，研究者们用一个未标记的Twitch数据集训练一个颜文字的“伪字典” ，在训练过程中，模型生成了444,714个单词、颜文字和emoji的嵌入。
此外，他们在VADER词典中新增了emoji和表情符号词汇，除了之前提到的EC数据集之外，他们还利用来自推特、烂番茄和YELP（外网一美食点评网站）采样这三个公开可用的数据集进行三元感情的分类。
由于项目中使用了不止一种方法和数据集，其结果也各不相同，但可以肯定的是，项目中表现最优的基准线比先前研究要高出7.36个百分点。
研究者认为，该项目的后续价值是在于LOOVE框架的继续开发，借助K最邻近法（KNN）和word-to-vector（W2V）的嵌入训练Twitch上超过3.31亿条的聊天数据。
论文作者总结道：框架背后的功能驱动是可用于预测未知表情情感的颜文字的伪词典。利用这个颜文字的伪词典，我们创建了一个包含22,507个表情的情绪表，可以说是第一个如此规模的颜文字解读案例。
https://www.unite.ai/understanding-twitch-emotes-in-sentiment-analysis/