盘点我跳过的科研天坑,进坑就是半年白干( 六 )


需要注意的是 , 如果你采用的指标非常常见 , 如AP , MSE , 就别在论文里列公式了 , 占地方 。 但是如果你采用的指标是近年新出的 , 甚至是你自己新提出的 , 花上几行好好解释一下这个指标的意义吧!你论文的贡献说不定也包括这几行!
3.不要轻易推广结论
“因为我的模型在XX数据集表现良好 , 它在XX任务上必然是未来之星“ 。 这类说法不是很严谨 , 因为数据集永远是真实世界的子集 , 无论你是否看得见 , 偏差必然存在 。 虽然这个说法一般不会直接导致论文被拒 , 但可能成为需要大修的理由之一 。
4.谨慎地讨论显著性
统计检验不是万能的 , 不同的指标可能高估或低估模型之间的差异 。 在描述模型差异前 , 请先想清楚 , 这个差异重要吗?只要数据集足够大 , 哪怕模型性能相差无几 , 实际测试结果也必然存在差异 。 或许 , 效应量(effectsize)也是不错的选择 , 效应量可以量化模型之间差异的大小 , 例如Cohen'sd , 或者更为鲁棒的Kolmogorov-Smirnov 。
5.模型:请再多懂我一点
这一点我非常痛苦地赞同 。 看别人的论文时 , 我最关心的就是讨论部分 , 分析一个模型为什么会表现好 , 机理上有什么改变 。 但这也是论文、尤其是使用机器学习的论文最难写的部分 , 因为很多作者自己都解释不清为什么模型性能表现好 。 想要提供模型的可解释性 , 目前最常见的做法就是可视化(我对你的爱 , 是为你而留的神经元~?) , XAI现在也在不断发展 , 可以参考的方法越来越多 。 好好写讨论 , 论文的可信度会上升不少 , 被接收/引用的概率也会显著提升 。
8尾声
这其实不仅仅是对跑实验过程的指南 。 如果按照这个规范来做实验 , 你会发现论文会变得很好写 , 而不是等要投稿了 , 再绞尽脑汁去想自己的工作到底有什么意义 。 因为你将有充分的理由去研究一个问题 , 有充分的理由把机器学习方法应用到这个问题上 , 你的实验过程是经得起推敲的 , 你的结果分析是面面俱到的 。 最终 , 你会发自内心地觉得自己没有浪费生命 , 而是真的做出了一份有价值的工作 , 并获得相当的成就感 。
引用原作者的话作为结尾:
这份指南并不完善 , 未必告诉了你所有你应当知道的内容 , 提到的一些方法和技巧也是经验性的 , 它们可能在未来被证明有误 , 或者存在争议——但这恐怕是由研究的本性决定的 。 如何跑机器学习的方法论总是会落后于实践 , 学者们总会在最佳的做事方法上争论不休 , 而我们今日所信奉的正确可能在明天就会被证伪 。 因此 , 研究机器学习 , 其实与做其他研究无异:永远保持开放的思维 , 愿意跟进最新的研究进展 , 并保持谦逊 , 承认你并非无所不知 。
GAIR2021大会首日:18位Fellow的40年AI岁月 , 一场技术前沿的传承与激辩
2021-12-10
致敬传奇:中国并行处理四十年 , 他们从无人区探索走到计算的黄金时代|GAIR2021
2021-12-09
时间的力量——1991人工智能大辩论30周年纪念:主义不再 , 共融互生|GAIR2021
2021-12-12
论智三易 , 串联通讯 , 贯通边缘 , 演进认知 , 汇于机器:听五位IEEEFellow畅谈AI未来|GAIR2021
2021-12-25
新一代AI人才从哪里来 , 该往哪里去?|GAIR2021院长论坛
2021-12-29