Excel 软件的自动类型转换功能总是错误地将基因名称转换为日期或其他数据类型|最新调查:因为Excel出错的论文,不减反增

Excel软件的自动类型转换功能总是错误地将基因名称转换为日期或其他数据类型 , 多年来一直困扰着计算生物学家 。 虽然学界早已意识到该问题 , 相同的错误却在近年变得越来越普遍了 。 最近一项针对一万多篇论文的调查显示 , 其中三分之一研究数据的基因名称都出了错 。
Excel 软件的自动类型转换功能总是错误地将基因名称转换为日期或其他数据类型|最新调查:因为Excel出错的论文,不减反增
文章图片
图片来源|Pixabay
撰文|武大可
澳大利亚迪肯大学(DeakinUniversity)的研究团队近期对2014到2020年间发表在PubMedCentral的11117项研究论文的补充基因列表进行了调查 , 发现其中有3436组数据出现了由MicrosoftExcel的自动类型转换导致的错误 , 错误的基因列表占比超过了30% 。 分析结果7月30日发表在《公共科学图书馆-计算生物学》(PLoSComputationalBiology)上 。
“这些错误至关重要 。 ”-MarkZiemann
这项研究的通讯作者、迪肯大学的基因组生物学研究者MarkZiemann从今年年初开始持续对期刊中的基因数据进行观察 , 并每月发布一份数据错误清单 , 很多知名期刊都是这份名单上的常客 。 Ziemann在TheConversation网站上撰写了一篇评论文章 , 表达对现状的痛心 。 他指出 , 如此大量的错误影响广泛而严重 , 不仅反映出研究人员缺乏对此问题的重视和相关技能 , 还反映出期刊论文的同行评审存在严重疏忽 , 这意味着更多的错误可能潜伏其中 。
画蛇添足
自动更正或类型转换功能会导致基因组名称错误 , 这个问题并非最近才被发现 。 早在2004年 , 《BMC生物信息学》(BMCBioinformatics)上就有研究指出 , 至少有30个人类基因和蛋白质名称会受到Excel软件的日期转换影响 。 浮点格式转换可能引起的基因标识符错误更是高达2000多个 。 并且由于Excel不保存修改历史 , 这些转换是不可逆的 , 原始的基因名称无法恢复 。
受到影响的字符串主要有两类:
1.本身名称与特定日期格式恰好相符 。 如名为“MARCH1” , “SEPT1”、“Oct-4”的基因 , 会被Excel当作3月1日、9月1日、10月4日等日期 , 转换为日期数据 。
Excel 软件的自动类型转换功能总是错误地将基因名称转换为日期或其他数据类型|最新调查:因为Excel出错的论文,不减反增
文章图片
Ziemann的团队在2016年就进行了一项调查研究 。 他们编写了一套脚本 , 分析了2005到2015年间发表在18本不同期刊上的3597篇论文所附的7467个Excel补充数据文件(.xls和.xlsx后缀) , 发现其中704篇论文的共987个补充文件中存在基因名称错误 , 出错比例达到了20% 。
基于2016年的这一研究报告 , 国际人类基因组组织(HUGO)基因命名委员会(HGNC)于2017年宣布修改一些基因名称 , 以避免被Excel误判为日期格式 。 共有27个基因名称得到更新 , 如“SEPT4”被改为“SEPTIN4” , “MARCH1”被改为“MARCHF1” 。
Excel 软件的自动类型转换功能总是错误地将基因名称转换为日期或其他数据类型|最新调查:因为Excel出错的论文,不减反增】30个左右的基因在人类基因组约44000个基因中只占一小部分 , 这些错误似乎不太可能动摇任何特定基因组研究的结论 。 但2010年美国杜克大学(DukeUniversity)曾有研究报告表达了担忧——在商业和金融领域 , 电子表格中的微小错误可能导致一系列交易失误 , 最终导致股市崩盘 , 基因组学和其他数据密集型科学领域也是如此 。 哪怕仅仅一个基因数据错误 , 都可能导致数据列表全部错位一行 , 彻底改变基因组分析结果 。
澳大利亚悉尼大学的分子生物学家、已经使用基因微阵列和基因转录数据在牛羊疾病领域进行了20年研究的AuriolPurdie也认为这一错误对她的研究产生了重大影响 。 她表示 , 自己很容易发现由于格式转换而发生的基因数据丢失 , 但Excel程序并不能自动帮她找到具体是哪些基因数据出了问题 。 手动在包含多达2万条数据的基因表格中逐一寻找丢失的基因成为了研究工作中无比繁重的负担 。