关闭

够公平吗?公共档案中核苷酸序列数据和元数据的现状透视

Christiane Hassenrück, Tobias Poprick, Véronique Helfer, Massimiliano Molari, Raissa Meyer, Ivaylo Kostadinov

预印本发布于2021年9月24日https://www.biorxiv.org/content/10.1101/2021.09.23.461561v1

挖掘数据:核苷酸测序数据存储的公平性如何,如何改进以促进数据挖掘?

选择 克里斯蒂娜Kuhbandner

背景

核苷酸测序数据被频繁地应用于生命科学的各个领域,由于技术的进步,数据量呈指数级增长(1)。最近,我们可以观察到一种新兴的趋势,即“回收”和重新分析存档在开放获取数据存储中的现有数据。这种“数据挖掘”方法可以帮助回答科学问题,而不仅仅是最初产生数据的研究中所处理的问题。然而,为了确保对现有数据的适当重用,仅提供原始数据是不够的,例如核苷酸序列;相反,重要的是要指定相关的元数据——描述原始数据的特征——比如实验条件和生成它们的方法。因此,公平提供数据制作方向的指南Findable,一个ccessible,nteroperable和REusable被发起(2)。

为了促进数据标准化,基因组标准联盟(GCS)建立了所谓的MIxS(关于任何(x)序列的最小信息)检查表,确定强制参数,并建议使用统一的词汇来描述采样环境和实验设置,例如通过“环境Ontology”(ENVO)(3)。ENA(欧洲核苷酸档案),三个主要数据档案之一,强烈鼓励提交者遵循这些MIxS指南。此外,德国生物数据联合会(GFBio)或中国核苷酸序列档案馆(CNSA)等中介机构还为简单、可持续的数据沉积提供专业支持。尽管采取了各种措施来促进公平元数据描述的不正确和不充分,仍然阻碍了数据存储的完整性和可互操作性和可重用性(4)。

研究问题与方法

在他们的研究中,Hassenrück和同事检查了原始读取Illumina扩增子的元数据状态和来自生态材料的全基因组鸟枪测序数据。具体来说,他们的目的评估主要序列数据是否符合数据提交标准.因此,作者搜索了ENA提供的生态宏基因组(NCBI taxid 410657)的原始读取数据。然后,他们回顾了所有“案例”的元数据信息,包括i)地理坐标,ii)目标基因,亚片段或引物,iii)扩增片段的长度(标称长度)和iv)使用标准词汇描述ENVO中的采样环境。

此外,提交的原始数据的格式对于核苷酸测序数据的自动化可重用性非常重要。因此,我们利用细菌16S基因V3-V4高变区扩增子研究的数据挖掘案例研究,研究如何根据ENA指南正确归档和作为环境样本的正确申报。

主要发现

总体而言,过去几年病例数稳步增加,并在2020年达到峰值,提交的序列超过12万例;但总共只有6.5%的分析序列符合MIxS检查表,自2018年以来,这一比例明显下降。

几乎在所有情况下都提供了地理坐标等一般元数据。相反,关于目标DNA区域的强制性信息——对数据解释和重用至关重要——在大多数情况下是不充分的。在所有被检查的病例中,只有7%的病例包含正确的靶基因细节,而根据MIxS检查表提交的大约1/3的序列可以随时获得这些信息。标称长度,另一个强制性参数,只在14%的情况下指定;值得注意的是,MIxS检查表的使用确保几乎所有案例都提供了关于这个值的信息。

利用ENVO对环境特征描述的评估显示,约70%的案例不包含任何有关这些参数的信息.相比之下,虽然ENVO术语的使用有时不一致,但几乎所有使用MIxS清单的情况都提供了这些值。值得注意的是,代理服务的使用大大提高了元数据的质量,特别是可访问性和互操作性。与扩增子测序数据相比,全基因组鸟枪测序(WGS)数据的质量略高。

最后,在一项数据挖掘研究的范围内,作者分析了存储在ENA上的39项研究的原始阅读,以确定它们是否符合ENA提交要求。他们报告说,只按要求提交了八份研究报告,因此指出这一点特别是核苷酸测序数据的互操作性和可重用性仍然有限

总的来说,这些结果显示了一个令人担忧的趋势,即数据提交和存储中使用适当的标准的减少对元数据质量产生了负面影响。为了克服这些问题,作者为不同的参与方提供了建议,包括研究人员、研究机构和资助机构。

为什么我选择这个预印本

在我看来,数据共享和交流是成功、可靠和可持续研究的基础。最近的技术进步允许我们生成大量的数据,但在大多数情况下,只有一小部分用于原始研究。要充分挖掘这些被掩埋的“数据尸体”的潜力,不需要额外的基准工作就可以大规模促进科学进步,公平和适当的数据管理是关键。Hassenrück博士及其同事目前的研究提醒人们注意核苷酸测序数据存储中存在的缺陷,并为数据共享过程中涉及的不同方面提供了有益和易于实施的建议。此外,对全球数据管理流程、法规和机构有了更深入的了解,这让我非常兴奋。

对作者的提问

  • 你认为为什么WGS数据更频繁地按照MIxS提交?
  • 你认为哪一条建议是最重要的?
  • 你的研究集中在来自ENA的数据。其他数据存档中是否也存在同样的问题?

参考文献

1) Harrison, Peter W.等,《2020年欧洲核苷酸档案》。核酸的研究49.D1 (2021): D82-D85。

2) Wilkinson, Mark D.等《科学数据管理和管理的公平指导原则》。科学数据3.1(2016): 1 - 9。

3) Yilmaz, Pelin等人。“标记基因序列(MIMARKS)的最小信息和任何(x)序列(MIxS)规格的最小信息。”自然生物技术29.5(2011): 415 - 420。

4) Eckert, Ester M.等人。“每五分之一发表的宏基因组对科学是不可用的。”公共科学图书馆生物学18.4 (2020): e3000698。

标签:可用性数据管理公平互操作性核苷酸序列可重用性

发布日期:2021年11月3日

doi:https://doi.org/10.1242/prelights.30958

读预印本 (未评级)




作者的回应

克丽丝汀Hassenrueck共享

1)您认为为什么WGS的数据提交频率更高
与将?

记住,这只是我个人的观点:我认为WGS
研究更频繁地提交MIxS,因为他们
需要更多的资源(即更昂贵),因此可能会
只有在较小的社区中才可行,想必更多
在他们的领域有经验,也在数据管理方面受过更好的训练。
我还想指出我们的研究评估了元数据
运行水平。因为测序数据通常由一个提交者提交
研究(元数据的质量很大程度上取决于提交者)
特定元数据质量的运行百分比也可能取决于
每次研究的运行次数(假设提交者参加相同的
请注意输入研究中所有运行的元数据)。

2)你认为哪个建议最重要?

从理论上讲,这些建议已经被归结为
最重要的,但如果让我再选一次,我会选:
@评论者:审查(元)数据就像手稿文本一样彻底
@研究机构:能力发展和培训
@研究人员:勤奋地使用清单,超越强制参数
@数据库:如果可行,进一步执行自动检查点
数据一致性

3)您的研究集中于来自ENA的数据。都是同样的问题
是否存在于其他数据档案中?

我们专门研究了短读档案(SRA)上的数据
INSDC数据库(ENA、NCBI和DDBJ)。因为这些数据库
镜像,我们只通过ENA访问它们,因为数据本身是
无论使用哪个门户进行访问,预期都是相同的。
通过任何其他数据库门户评估数据访问是
超出了我们的研究范围。
对于序列数据,INSDC数据库是全球最大的
资源,往往构成进一步衍生的基础
数据库,可能会遇到同样的问题。虽然我们做了
不调查其他(派生)序列数据存储库,我发现它
讨论的问题可能是广泛的。

你说

你的电邮地址不会被公布。必填字段被标记

本网站使用Akismet来减少垃圾邮件。了解如何处理您的评论数据

注册后可根据您的喜好定制网站并接收提醒

注册在这里
关闭