emb|从视频到音频:使用VIT进行音频分类( 三 )



   print('Loss: {:.4f Acc: {:.4f'.format(epoch_loss epoch_acc))
总结使用PyTorch从头开始训练了这个Vision Transformer架构的自定义实现 。 因为数据集非常小(每个类只有100个样本) , 这影响了模型的性能 , 只获得了0.71的准确率 。
这只是一个简单的演示 , 如果需要提高模型表现 , 可以使用更大的数据集 , 或者稍微调整架构的各种超参数!
https://avoid.overfit.cn/post/1f4156a56139417d97745066c0b497ec
【emb|从视频到音频:使用VIT进行音频分类】作者:Alessandro Lamberti