vit|Meta AI发布图音文大一统模型Data2vec,CV精度超MAE( 二 )

文章插图
可以看出，Data2vec在不同的标签数据量下单词错误率都比wav2vec2.0和HuBERT要低。

文章插图
在GLUE评估中，Data2vec在自然语言推理（MNLI、QNLI、RTE），句子相似性（MRPC、QQP、STS-B），语法（CoLA）和情绪分析（SST）等指标中和RoBERTa不相上下。
其中Baseline这一条是RoBERTa在和BERT类似的设置中的训练结果：

文章插图
总体评分也差不多：

文章插图
这么看来，统一的模型架构真的可以有效地用于多种任务模式。
虽然Data2vec在输入数据和掩码方式上还是按照不同的方法来处理，但是它仍然是探索模型统一的尝试。
或许将来会有统一的掩码策略和不同模态数据的混合数据集，做到真正的大一统。
参考链接：
[1]https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language
[2]https://ai.facebook.com/blog/the-first-high-performance-self-supervised-algorithm-that-works-for-speech-vision-and-text
[3]https://github.com/pytorch/fairseq/tree/main/examples/data2vec