药物研发有机化学论文提纲

2022-11-15

论文题目：基于门控图卷积神经网络的有机化学反应预测研究

摘要：传统的新药研发面临着投入高、耗时长、成功率低的困境。根据《美国医学会杂志》提供的数据,开发新药的平均成本约为28亿美元,新药研发的平均时长约为14年。药物合成路线设计实质上是一个化学分子逆向合成问题,即如何利用化学原料库中常见的分子设计出合成路线以合成目标分子。目前药物合成路线设计的主要方法为在单步逆合成反应预测模型的基础上结合蒙特卡洛树搜索算法进行路径搜索。当前药物合成路线设计模型仍然面临诸多困难,其所推荐的药物合成路线可能并不能成功合成目标分子。药物合成路线设计主要瓶颈在于:（1）化学分子搜索空间巨大,单步逆合成反应预测困难,模型的准确率偏低（2）可供学习训练的化学反应数量不足,且化学反应类型的数量分布不均匀容易给模型训练带来偏见（3）路线搜索效率较低、搜索时间过长。为解决上述问题,本文设计了单步正向反应预测模型辅助生成目标分子合成路径的方法。本文的主要研究内容如下:（1）针对化学反应类型的数量分布不均匀的问题。本文设计了一种主动采样的训练方式,即学习完一轮完整的训练集数据后,在开始下一轮完整的训练过程之前采集loss值较高的反应类型数量较少的数据先进行训练。通过增加反应类型数量较少的反应的训练次数,可以缓解反应类型的数量分布不均匀给模型训练带来的偏见问题。（2）为了高效准确的预测有机化学反应产物,本文设计了一种基于主动采样训练的门控图卷积神经网络模型（Active Sampling-training Gated Graph Convolutional Neural-network,ASGGCN）。模型首先输入化学反应物的SMILES编码,通过门控图卷积网络以及注意力机制预测反应中心所在位置,然后根据化学约束条件枚举出可能的化学键组合来生成候选产物,再通过门控图卷积差分网络对候选产物进行筛选,最终得到反应产物。门控图卷积神经网络拥有三个权重参数矩阵并通过门控对信息加以融合,相比传统的图卷积神经网络门控图卷积神经网络能够获取更加丰富的原子隐藏特征信息。实验结果表明ASGGCN对化学反应产物Top-1预测准确率可达87.2%,对比WLDN模型提高了1.6%,对比Seq2Seq模型提高了6.9%,模型能够更准确的预测有机化学反应产物。（3）针对单步逆合成模型准确率偏低以及合成路线搜索效率较低的这两个问题,本文设计了单步正向反应预测模型辅助生成目标分子合成路径的方法。单步正向反应预测问题所考虑的分子仅为反应物分子,数目有限,故相比于单步逆合成反应预测模型准确率更高。通过单步正向反应预测模型对单步逆合成反应预测模型的结果进行验证,将错误结果分支进行裁剪可以提高化学可行性,并减少合成路径搜索范围提高搜索效率。

关键词：主动采样;门控图卷积网络;有机化学反应;分子逆合成

学科专业：计算机技术

摘要

Abstract

第一章绪论

1.1 课题研究的背景及意义

1.2 国内外研究现状

1.3 本文的主要研究工作

1.4 论文的结构

第二章化学反应预测与深度学习理论基础

2.1 化学反应预测的相关概念

2.1.1 SMILES表达式