够公平吗?公共档案中核苷酸序列数据和元数据的现状透视
预印本发布于2021年9月24日https://www.biorxiv.org/content/10.1101/2021.09.23.461561v1
背景
核苷酸测序数据被频繁地应用于生命科学的各个领域,由于技术的进步,数据量呈指数级增长(1)。最近,我们可以观察到一种新兴的趋势,即“回收”和重新分析存档在开放获取数据存储中的现有数据。这种“数据挖掘”方法可以帮助回答科学问题,而不仅仅是最初产生数据的研究中所处理的问题。然而,为了确保对现有数据的适当重用,仅提供原始数据是不够的,例如核苷酸序列;相反,重要的是要指定相关的元数据——描述原始数据的特征——比如实验条件和生成它们的方法。因此,公平提供数据制作方向的指南Findable,一个ccessible,我nteroperable和REusable被发起(2)。
为了促进数据标准化,基因组标准联盟(GCS)建立了所谓的MIxS(关于任何(x)序列的最小信息)检查表,确定强制参数,并建议使用统一的词汇来描述采样环境和实验设置,例如通过“环境Ontology”(ENVO)(3)。ENA(欧洲核苷酸档案),三个主要数据档案之一,强烈鼓励提交者遵循这些MIxS指南。此外,德国生物数据联合会(GFBio)或中国核苷酸序列档案馆(CNSA)等中介机构还为简单、可持续的数据沉积提供专业支持。尽管采取了各种措施来促进公平元数据描述的不正确和不充分,仍然阻碍了数据存储的完整性和可互操作性和可重用性(4)。
研究问题与方法
在他们的研究中,Hassenrück和同事检查了原始读取Illumina扩增子的元数据状态和来自生态材料的全基因组鸟枪测序数据。具体来说,他们的目的评估主要序列数据是否符合数据提交标准.因此,作者搜索了ENA提供的生态宏基因组(NCBI taxid 410657)的原始读取数据。然后,他们回顾了所有“案例”的元数据信息,包括i)地理坐标,ii)目标基因,亚片段或引物,iii)扩增片段的长度(标称长度)和iv)使用标准词汇描述ENVO中的采样环境。
此外,提交的原始数据的格式对于核苷酸测序数据的自动化可重用性非常重要。因此,我们利用细菌16S基因V3-V4高变区扩增子研究的数据挖掘案例研究,研究如何根据ENA指南正确归档和作为环境样本的正确申报。
主要发现
总体而言,过去几年病例数稳步增加,并在2020年达到峰值,提交的序列超过12万例;但总共只有6.5%的分析序列符合MIxS检查表,自2018年以来,这一比例明显下降。
几乎在所有情况下都提供了地理坐标等一般元数据。相反,关于目标DNA区域的强制性信息——对数据解释和重用至关重要——在大多数情况下是不充分的。在所有被检查的病例中,只有7%的病例包含正确的靶基因细节,而根据MIxS检查表提交的大约1/3的序列可以随时获得这些信息。标称长度,另一个强制性参数,只在14%的情况下指定;值得注意的是,MIxS检查表的使用确保几乎所有案例都提供了关于这个值的信息。
利用ENVO对环境特征描述的评估显示,约70%的案例不包含任何有关这些参数的信息.相比之下,虽然ENVO术语的使用有时不一致,但几乎所有使用MIxS清单的情况都提供了这些值。值得注意的是,代理服务的使用大大提高了元数据的质量,特别是可访问性和互操作性。与扩增子测序数据相比,全基因组鸟枪测序(WGS)数据的质量略高。
最后,在一项数据挖掘研究的范围内,作者分析了存储在ENA上的39项研究的原始阅读,以确定它们是否符合ENA提交要求。他们报告说,只按要求提交了八份研究报告,因此指出这一点特别是核苷酸测序数据的互操作性和可重用性仍然有限.
总的来说,这些结果显示了一个令人担忧的趋势,即数据提交和存储中使用适当的标准的减少对元数据质量产生了负面影响。为了克服这些问题,作者为不同的参与方提供了建议,包括研究人员、研究机构和资助机构。
为什么我选择这个预印本
在我看来,数据共享和交流是成功、可靠和可持续研究的基础。最近的技术进步允许我们生成大量的数据,但在大多数情况下,只有一小部分用于原始研究。要充分挖掘这些被掩埋的“数据尸体”的潜力,不需要额外的基准工作就可以大规模促进科学进步,公平和适当的数据管理是关键。Hassenrück博士及其同事目前的研究提醒人们注意核苷酸测序数据存储中存在的缺陷,并为数据共享过程中涉及的不同方面提供了有益和易于实施的建议。此外,对全球数据管理流程、法规和机构有了更深入的了解,这让我非常兴奋。
对作者的提问
- 你认为为什么WGS数据更频繁地按照MIxS提交?
- 你认为哪一条建议是最重要的?
- 你的研究集中在来自ENA的数据。其他数据存档中是否也存在同样的问题?
参考文献
1) Harrison, Peter W.等,《2020年欧洲核苷酸档案》。核酸的研究49.D1 (2021): D82-D85。
2) Wilkinson, Mark D.等《科学数据管理和管理的公平指导原则》。科学数据3.1(2016): 1 - 9。
3) Yilmaz, Pelin等人。“标记基因序列(MIMARKS)的最小信息和任何(x)序列(MIxS)规格的最小信息。”自然生物技术29.5(2011): 415 - 420。
4) Eckert, Ester M.等人。“每五分之一发表的宏基因组对科学是不可用的。”公共科学图书馆生物学18.4 (2020): e3000698。
发布日期:2021年11月3日
doi:https://doi.org/10.1242/prelights.30958
读预印本注册后可根据您的喜好定制网站并接收提醒
注册在这里还在生物信息学类别:
还在生态类别:
preLists生物信息学类别:
在还在基因组学类别:
第20届“匈牙利遗传学研讨会”,赛格德(9月25日)
在这个年度会议上,匈牙利遗传学家、生物化学家和生物技术学家展示了他们的工作。链接:http://group.szbk.u-szeged.hu/minikonf/archive/prg2021.pdf
列表的 | Nandor利普达克 |
EMBL会议:从功能基因组学到系统生物学
在“来自功能基因组学和系统生物学”的虚拟EMBL会议上展示的预印本,2020年11月16-19日
列表的 | 耶稣Victorino |
TAGC 2020
预印本最近在2020年4月22-26日的虚拟联合遗传学会议上展示。# TAGC20
列表的 | 北冈舞子等人。 |
斑马鱼免疫学
一个前沿研究的汇编,使用斑马鱼作为一个模型系统,以阐明新的免疫机制在健康和疾病。
列表的 | Shikha纳亚尔 |