LLM增强微生物组样本语义分类,提高数据可用性-卓世科技-中国行业大模型先锋
微信扫码了解我们
服务热线
13321112233

预约演示

姓名
* 电话
邮箱
地址
内容

LLM增强微生物组样本语义分类,提高数据可用性

2025/05/20
图片

编辑 | 烂菜叶

在 1985 年,当科学家们发起预算达 30 亿美元的人类基因组计划时,可能怎么也不会想到「基因测序」会变成生物实验室的「家常便饭」。

如今,任何一个课题组、研究人员都可以向测序公司提交样品,短则一天多则三五天,就能获得样品的全部序列。这也意味着,新增的各类生物的核酸、蛋白的序列数据会指数般增长。

在过去十年中,生物序列库的规模扩大了 30-40 倍之多。

这些海量数据的积累极具价值。只要数据条目注释良好,就可以为进一步研究提供支撑。然而,这些数据的提交者所提供的测序记录元数据质量参差不齐,给数据的重复利用带来了巨大挑战。

瑞士苏黎世大学(University of Zurich)的研究人员测试了大型语言模型(LLM)在多大程度上可以用于经济高效地重新注释测序记录;既无需重新训练,也不需要根据与微生物组研究相关的广泛生态环境的简化分类方案进行重新注释。

该研究以 「Enhanced semantic classification of microbiome sample origins using Large Language Models (LLMs)」为题,于 2025 年 4 月 27 日发布在 bioRxiv 预印平台。 

图片

规范化和标准化的原始数据,对科研工作的可重复性至关重要。

过去十年中,GenBank 数据库规模扩大了 30 多倍,全基因组测序数据库(WGS)增长近 40 倍,欧洲核苷酸档案库(ENA)在 2012 至 2022 年间也报告了 10 倍的增长。这种激增为有效管理、标准化和利用大规模数据等工作产生了巨大压力。

虽然数据库会提供提交指南和结构化元数据模板,但提交环节常常被提交者忽视,导致元数据质量参差不齐。例如,NCBI 虽通过下拉菜单(如生物类型字段)和提交教程等措施尽量实现标准化,但历史遗留的自由格式数据仍难以统一处理。

传统自然语言处理方法(如 TF-IDF)因缺乏语境理解能力,难以应对含专业术语、拼写变体的复杂元数据。新兴的大型语言模型(LLM)凭借上下文理解能力,显著提升了跨领域元数据的解析和挖掘效能,或许是应对该挑战的解决方法。

图片

图示:流程概要。(来源:论文)

苏黎世大学的研究团队使用 MicrobeAtlas 作为使用 LLM 进行元数据解析的测试平台。MicrobeAtlas 是一个庞大而多样化的资源,包含从 NCBI 检索到的数百万个宏基因组 SRA 样本。

MicrobeAtlas 使用从元数据中提取的关键字,根据硬编码规则将样本分配到定义的环境类别中。然而,这种非语义方法可能无法为术语赋予正确的含义,尤其是在存在多样化、用户定义的元数据字段的情况下,从而导致分配结果模棱两可甚至错误。

该团队的目标是利用通用的 LLM 将样本(重新)分类到定义的环境类别中,同时从元数据中检索有效信息。LLM 的任务是:

1、将样本分类到主要类别(主要讨论「生物群落」,即「动物」、「水」、「土壤」、「植物」等);2、将样本进一步分类到子类别,这里称为「亚生物群落」;3、提取给定采样点的地理位置;4、提取最多八个描述样本的关键术语。

目标是以经济高效的方式获得高质量的成果,探索不同版本 GPT 在各种条件和配置下的功能。

图片

图示:生物群落分类准确度的热图(所有 GPT 运行的平均值)。(来源:论文)

研究人员评估了 GPT 模型的可扩展性、时间和成本效益,以及与包含 1000 个示例的多样化、手工筛选的 ground-truth 基准测试的性能,这些示例涵盖了元数据解读的复杂程度。

他们观察到,注释性能显著优于基于关键词的人工筛选、非机器学习的基准方法。更改模型(或模型参数)对性能的影响很小,但提示需要精心设计以匹配任务。

该团队将优化后的流程应用于环境中超过 380 万条测序记录,提供了覆盖全球的粗粒度但标准化的采样点注释。

研究结果表明,LLM 的上下文感知解析能力足以完成元数据(重新)注释——至少在相对结构化的任务(例如微生物组样本来源分类)中是如此。

虽然错误仍然存在,一部分原因是模型限制,另一部分原因是现实世界样本固有的模糊性,偶尔也源于解析问题。另外,更直接的技术限制包括商业 API 施加的速率限制和每个请求的 token 数量限制。

尽管如此,研究人员给出的结论是:像 GPT 这样的 LLM 可以有效地补充数据管理周期中的现有工作流程,包括指导元数据提交或协助事后元数据整理。高质量的元数据对于增强数据可重用性至关重要,对于管理日益增长的微生物组数据至关重要,并最终将支持该领域的新发现。

论文链接:https://www.biorxiv.org/content/10.1101/2025.04.24.650461v1