Excel 软件的自动类型转换功能总是错误地将基因名称转换为日期或其他数据类型|最新调查:因为Excel出错的论文,不减反增( 二 )


愈演愈烈
出乎预料的是 , 在学界意识到Excel的自动更正导致的严重错误 , 且HGNC进行了基因更名后 , 这一问题并未被解决 , 甚至有愈演愈烈之势 。 Ziemann的团队2016年对过去十年的论文数据进行的统计调查得出的错误率尚为约20% , 而今年对2014年到2020年的相同调查得出的错误率却高达30% 。
Excel 软件的自动类型转换功能总是错误地将基因名称转换为日期或其他数据类型|最新调查:因为Excel出错的论文,不减反增
文章图片
科研圈根据MarkZiemann的数据制作 。 数据来源:MarkZiemann/TheConversation
欧洲生物信息学研究所(EuropeanBioinformaticsInstitute)的HGNC联络人ElspethBruford认为 , 凭此错误增长就得出更名无用的结论或许为时过早 , 因为更名的影响还需数年时间来渗透到学界 , 在论文和数据表中体现出来 。 但即使更名的作用完全与预期相符 , 她也并不对该问题的解决持完全乐观的态度 。 更名与HGNC倾向于保持基因名称稳定的初衷背道而驰 , 仅靠更名也并不能完全解决Excel误改的问题——巧合了Excel日期的基因得到了更名 , 但与浮点计数格式撞上了的基因并没有得到更名 。
Bruford认为 , 这一问题很难通过Excel更新得到解决 。 基因研究领域的用户群只占了Excel所有用户中微不足道的一部分 , 并且微软也表示“Excel的默认设置旨在满足大多数用户在大多数情况下的需求” , 不会为了遗传学领域的用户对软件进行修改 。 对基因相关领域的研究者来说唯一一劳永逸的解决方案可能是转用其他工具 , 脚本化的计算机语言如Python或R是最佳选项 。 这些语言不但能避免画蛇添足的自动更正 , 本身功能也远比Excel强大——能够提供更强的分析技术 , 具有可重复性和可审核性 , 并且允许更好地进行版本管理 , 区分不同作者的贡献 。
尽管好处是显而易见的 , 但转用编程语言进行研究对很多研究者们来说门槛或许太高了 。 Purdie表示 , 她早已适应了Excel的“怪癖” , 养成了在会受影响的基因名称前加上半个单引号来防止自动转换的习惯 。 比起学习编程语言所要耗费的巨大时间和精力 , 这样的小麻烦是她“能够妥协的事情” 。 她还会在共享和发布数据之前按基因名称对数据进行排序——这至少会让被错误转换为日期的基因排在首位——来进行快速检查 , 这与Ziemann对坚持使用Excel的研究者的建议一致 。
Ziemann仍坚持转用编程语言的重要性 , “它们最初可能很难学习 , 但从长远来看 , 所能带来的科学益处是值得的” 。 他强调 , “数据密集型领域(尤其是生命科学领域)的研究者需要更好的计算机技能” , 对于遇到学习困难的研究人员 , 相关机构应提供基本代码技能的指导 , 就如志愿项目SoftwareCarpentry正在做的 。 除了研究人员 , 大学也应更多地为本科生提供所需的高级分析技能课程 。
参考文献
[5]https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-5-80
[6]https://www.genenames.org/news/newsletters/2017/05/10/HGNC-Newsletter-Spring-2017/
[7]https://www.deakin.edu.au/about-deakin/people/mark-ziemann
[8]https://ziemann-lab.net/public/gene_name_errors/
[9]https://www.nature.com/articles/nm0610-618a
本文经授权转载自科研圈(ID:keyanquan) , 如需二次转载请联系原作者 。
欢迎转发到朋友圈 。
来源:果壳网