我国学者在未知化学物质智能化识别方面取得进展

日期:2025-12-08  来源: 化学科学部     作者: 王海潮 万莹   【 】   【 打印 】  【 关闭

图 基于虚拟谱图训练的质谱智能化结构鉴定模型MSGo

  在国家星空彩票官方苹果版项目(批准号:22525604、22376092、U24A20512、22276090)等资助下,南京大学韦斯教授课题组与合作者在未知化学物质的结构智能识别方面取得进展。研究成果以"Pseudodata-based molecular structure generator to reveal unknown chemicals"为题,于2025年11月14日在线发表于《Nature Machine Intelligence》期刊上。论文链接:https://doi.org/10.1038/s42256-025-01140-5。

  小分子结构解析是暴露组学、环境健康等领域的基础科学问题。然而,质谱数据稀缺、模型适配性不足与结构空间检索复杂,使得未知化学物质的结构解析面临巨大挑战。为此,研究团队以质谱数据匮乏的全氟化合物这一类新污染物为切入点,提出了“虚拟谱图耦合碎片掩蔽”训练策略。该策略通过生成超过十万张全氟化合物虚拟谱图,有效突破了数据稀缺的瓶颈;通过进一步耦合动态碎片掩蔽训练机制,实现了虚拟谱图向实验谱图的高效迁移学习,显著增强了预测的鲁棒性。此外,研究团队优化了质谱与结构的表示方法,提升了Transformer架构与结构解析任务的适配性,并结合了基于束搜索的结构生成策略,最终形成了“数据增强-模型适配-全局检索”的新型分子生成模型MSGo。

  研究表明,MSGo对于全氟化合物,生成SMILES语法准确率高达95.4%,生成结构的准确率大幅优于Sirius、CFM-ID等现有识别方法,并具备优秀的结构多样性生成能力。在真实样品分析中,MSGo成功识别出17类51种全氟化合物,与专家识别结果有效互补,凸显了其在人机协作鉴定的巨大潜力。此外,该模型成功拓展至脂质小分子的结构鉴定,显示出其跨物质类别的泛化能力,可应用于天然产物、代谢小分子的结构识别。

  研究团队通过伪数据训练和概率掩码策略,成功解决了质谱数据到结构转换中的关键挑战,实现了性能的显著提升,为暴露组学和环境健康研究提供了智能化的新方法。

Baidu
map