生命科学学院2018本科生孟昭旭在本科学习阶段完成了题为Exploring Fragment Adding Strategies to Enhance Molecule Pretraining in AI-Driven Drug Discovery的论文,并在Big Data Mining and Analytics期刊上发表。该研究首次提出了FragAdd药物小分子的预训练方法,该策略显著提升了分子的表征质量,为虚拟筛选等领域的任务提供了创新的解决路径,对人工智能辅助药物发现研究具有深远意义。
在药物发现领域,研究与开发成本的激增已使得一个新药的研发费用飙升至数十亿美元,过去十年的数据显示这一费用呈现指数级增加。伴随着大数据技术的广泛应用,深度学习技术在加快药物研发流程方面的潜力正受到日益增长的关注,其应用已经扩展到包括化学合成、虚拟药物筛选和创新药物设计等多个交叉研究领域。尽管如此,深度学习技术的效率很大程度上依赖于高质量的标注数据,而这些数据的采集不仅代价昂贵,耗时巨大,有时还难以实现。
FragAdd药物小分子预训练策略示意图
针对标注数据不足的挑战,预训练技术通过挖掘大量未标注数据中的基础知识,已被验证可以显著提高特定任务的执行效果。在小分子预训练领域,传统方法受限于分子词汇的有限性和结构的非线性特点,这些限制影响了它们在药物虚拟筛选等关键领域的实际应用。为了克服这些挑战,我们提出了一种创新的预训练策略,称为FragAdd(如上图所示)。该策略通过在分子中引入化学上不合理的片段,并训练模型分辨出哪些是分子原有的合理片段,哪些是添加的不合理片段。这一过程有助于模型掌握并领会分子的基本化学原理。
FragAdd显著提高了雌激素受体α抑制剂虚拟筛选的性能
利用能够解析分子内在基本化学原理的深度学习模型,我们可以将其应用于药物小分子的虚拟筛选过程。为验证这一策略的有效性,我们开展了模拟实验,旨在筛选雌激素受体α的抑制剂。如上所述图表所示,实验结果表明FragAdd预训练策略显著提高了模型识别潜在药物分子的能力。与传统的分子指纹搜索方法相比,深度学习无须手工设计特征,而是以数据驱动的方式,直接从分子结构中学习有用的信息。此外,深度学习模型能够识别分子结构中那些复杂的模式和非线性关系,这些往往是传统分子指纹难以捕捉到的。基于FragAdd预训练策略,山东大学的研究团队正积极研发创新的天然产物药物方向,并已进入湿实验室验证阶段。
山东大学生命科学学院2018级本科生孟昭旭(现为美国西南医学中心在读博士生)为论文的第一作者,在其本科学习期间完成了该研究工作。山东大学计算机科学与技术学院的崔学峰教授,作为共同通讯作者,提出并指导实施了FragAdd预训练技术。微生物技术国家重点实验室赵巍副教授作为共同通讯作者与崔学峰教授合作,从药物化学的理论与经验上参与了该方法的优化完善。Big Data Mining and Analytics是中国科学院一区学术期刊,具有13.6的影响因子和17.7的CiteScore引文评分。该期刊专注于挖掘和分析庞大的数据集——包含生物学领域的大数据,旨在揭露其中隐匿的模式、关联性、深刻见解以及知识。
文章链接:https://ieeexplore.ieee.org/document/10452166