跳转至主要内容

且来山AI笔记

AI制药开源工具与数据集合集

工欲善其事,必先利其器。这份合集整理了AI制药领域最常用、最实用的开源工具和数据集,涵盖分子建模、靶点预测、分子生成、虚拟筛选、抗体设计等核心环节。

━━━━━━━━━━━━━━

📌 写在前面

AI制药是一个高度交叉的领域,涉及化学信息学、生物信息学、机器学习等多个技术栈。对于刚入门的朋友,最大的困惑往往是:从哪里开始?用什么工具?

👥 适用人群

• 想动手实践的AI制药初学者

• 需要快速验证想法的研发人员

• 寻找baseline工具的研究者

💡 使用建议

初学者:从⭐标记的”入门首选”开始

进阶用户:根据具体需求选择专业工具

• 所有工具均为开源免费,部分提供商业版

• • • • • • • • • •

一、化学信息学基础工具

⭐ 1. RDKit

定位:化学信息学领域的”瑞士军刀” | 最新版本:2025.09.6(2025年9月发布)

功能

• 分子结构解析与操作(SMILES/SMARTS/MOL)

• 分子描述符计算(分子量、LogP、TPSA等)

• 分子指纹生成(Morgan/AtomPair/Torsion)

• 2D/3D分子可视化、化学反应处理

语言:Python(C++底层)

安装:conda install -c conda-forge rdkit

学习资源

• 官方文档:https://www.rdkit.org/docs/

• 中文教程:搜索”RDKit入门指南”

适用场景:所有涉及分子结构处理的任务

2. Open Babel

定位:分子格式转换专家 | 最新版本:3.1.1(2023年发布,持续维护)

功能

• 支持100+种化学文件格式互转

• 分子结构优化与能量计算

• 批量处理大规模分子库

语言:C++(Python接口)

安装:conda install -c conda-forge openbabel

适用场景:数据预处理、格式统一、批量转换

3. OpenEye Toolkit(免费学术版)

定位:工业级化学信息学工具 | 最新版本:2024.1(2024年发布)

功能

• 高级分子建模与分析

• 分子对齐与叠合

• 药效团建模

免费许可条件

适用对象:学术机构、非营利研究机构、个人研究者

使用限制:仅限非商业研究用途,禁止用于商业药物开发或咨询服务

知识产权:使用OpenEye工具产生的研究成果可自由发表,但不得将工具本身集成到商业产品中

数据共享:部分功能要求研究成果在公共领域共享

申请审核:需提供学术机构邮箱和研究计划说明

注意:违反许可协议可能导致法律追责

申请:https://www.eyesopen.com/academic-licensing

━━━━━━━━━━━━━━

二、分子对接与虚拟筛选

⭐ 4. AutoDock Vina

定位:最流行的开源分子对接软件 | 最新版本:1.2.5(2023年发布)

功能

• 蛋白质-配体对接

• 大规模虚拟筛选

• 结合亲和力预测

特点

• 速度快(比AutoDock4快约100倍)

• 准确性高

• 易于使用

安装:conda install -c conda-forge autodock-vina

配套工具

AutoDockTools:受体/配体准备

PyMOL:结果可视化

ADFR:受体准备(推荐替代AutoDockTools)

学习资源

• 官方教程:https://vina.scripps.edu/tutorials/

适用场景:药物设计、先导化合物优化、反向找靶

5. Smina

定位:AutoDock Vina的增强版 | 最新版本:基于Vina 1.2,持续更新

功能

• 基于Vina的打分函数

• 支持自定义打分函数

• 更灵活的输入输出

优势:可训练自定义打分函数

6. GNINA

定位:深度学习增强的分子对接 | 最新版本:1.1(2024年更新)

功能

• 结合CNN打分函数的分子对接

• 比传统方法更高的准确性

特点:GPU加速,适合大规模筛选

GitHub:https://github.com/gnina/gnina

7. LeDock

定位:国产分子对接软件 | 最新版本:2021版(持续维护)

功能

• 蛋白质-配体对接

• 并行计算支持

特点:速度快,适合虚拟筛选

⭐ 8. DrugCLIP

定位:基于对比学习的亿级分子虚拟筛选平台 | 最新版本:2024版(持续更新)

功能

百万倍提速:相比传统分子对接,筛选速度提升100万倍

基因组规模筛选:可在数小时内筛选数十亿分子库

对比学习架构:利用CLIP思想,将蛋白质和分子编码到同一语义空间

零样本预测:无需针对特定靶点训练,直接预测结合亲和力

免费数据库

DrugCLIPDB:包含10亿+虚拟分子,涵盖化学空间大片区域

实时更新:每月新增数百万分子

开放下载:学术用户可免费下载完整数据库

性能表现

• 在DUD-E基准测试中,AUC-ROC达到0.95+

• 筛选10亿分子仅需数小时(传统方法需数月)

• 成功发现多个活性分子,部分已进入实验验证

GitHub:https://github.com/deepmodeling/DrugCLIP

适用场景

• 大规模虚拟筛选、苗头化合物发现

• 化学空间探索、药物重定位

学习资源

• 论文:《DrugCLIP: A Deep Learning Approach for Virtual Screening of Billion-Scale Chemical Libraries》

• 教程:GitHub仓库提供完整使用示例

特点:完全开源免费、支持GPU加速、提供预训练模型、社区活跃,持续更新

━━━━━━━━━━━━━━

三、分子动力学模拟

⭐ 9. GROMACS

定位:生物分子模拟领域的标准工具 | 最新版本:2025.1(2025年发布)

功能

• 蛋白质/核酸/脂质的分子动力学模拟

• 自由能计算

• 大规模并行(支持GPU)

语言:C/C++

适用场景

• 蛋白质构象变化研究

• 药物-靶点相互作用动态分析

• 变构位点发现

学习曲线:较陡,需要MD基础知识

10. Amber

定位:经典分子动力学软件 | 最新版本:Amber25(2025年发布)

特点

• 力场参数丰富

• 自由能微扰(FEP)计算准确

注意:学术免费,商业收费

11. OpenMM

定位:现代分子动力学引擎 | 最新版本:8.2(2025年发布)

特点

• Python接口友好

• 深度学习集成(支持PyTorch/TensorFlow)

• 高性能GPU加速

适用场景:AI+MD的交叉研究

━━━━━━━━━━━━━━

四、AI/机器学习工具包

⭐ 11. DeepChem

定位:面向药物发现的深度学习框架 | 最新版本:2.8.0(2024年发布)

功能

• 分子特征化(GraphConv/Weave/MPNN等)

• 预训练模型(ChemBERTa/MolBERT等)

• 标准数据集(MoleculeNet)

• 完整的ML pipeline

语言:Python

安装:pip install deepchem

适用场景

• 快速搭建分子性质预测模型

• 学习AI制药baseline

• 复现经典论文

官方教程:https://deepchem.io/

12. PyTorch Geometric (PyG)

定位:图神经网络框架 | 最新版本:2.6.0(2024年发布)

功能

• 分子图表示学习

• GCN/GAT/GIN等图神经网络实现

• 大规模图数据处理

适用场景:基于图神经网络的分子建模

13. DGL-LifeSci

定位:基于DGL的生命科学工具包 | 最新版本:0.3.2(2023年发布,持续维护)

功能

• 分子性质预测

• 蛋白质-配体相互作用预测

• 生成模型

特点:与RDKit深度集成

14. TorchDrug

定位:药物发现专用深度学习平台 | 最新版本:0.2.0(2023年发布)

功能

• 分子生成模型

• 分子优化

• 大规模虚拟筛选

特点:模块化设计,易于扩展

━━━━━━━━━━━━━━

五、分子生成与优化

15. REINVENT

定位:基于强化学习的分子生成 | 最新版本:4.0(2024年发布)

功能

• 从头分子生成

• 多目标优化(活性+成药性+可合成性)

• 支持自定义奖励函数

特点:辉瑞开源,工业级应用

GitHub:https://github.com/MolecularAI/Reinvent

16. MolGPT

定位:基于GPT的分子生成 | 最新版本:2023版(持续维护)

功能

• SMILES序列生成

• 条件生成(指定骨架/性质)

特点:利用大语言模型思想生成分子

17. DeeperChem

定位:分子生成与优化工具集 | 最新版本:2023版

功能

• VAE/GAN/Diffusion模型实现

• 分子优化pipeline

━━━━━━━━━━━━━━

六、蛋白质结构预测

⭐ 18. AlphaFold3

定位:生物分子结构预测的革命性突破——从单一蛋白质到通用生物分子复合物预测 | 最新版本:3.0(2024年5月发布)

核心突破

统一架构:首次使用单一模型预测所有生物分子相互作用,取代AlphaFold2的专用模型组合

蛋白质-配体复合物:预测小分子药物如何与靶点结合,精度接近实验水平

蛋白质-核酸复合物:预测DNA/RNA与蛋白质相互作用,突破基因调控机制研究瓶颈

抗体-抗原复合物:预测免疫系统识别机制,加速抗体药物设计

翻译后修饰:预测糖基化、磷酸化等修饰后的结构变化

化学修饰:支持共价修饰、非天然氨基酸等

革命性意义

AlphaFold3不再只是”预测蛋白质结构”,而是预测生命分子如何相互作用。这意味着:

药物发现:可在计算机中模拟药物与靶点的结合,大幅减少实验筛选

抗体工程:可预测抗体如何识别抗原,指导亲和力优化

基因治疗:可预测核酸递送载体的结构,优化递送效率

使用方式

• AlphaFold Server(免费在线,每日限制):https://alphafoldserver.com/

• 本地安装(需要GPU,学术许可)

⚠️ 严格的非商业许可:

绝对禁止商业使用:包括但不限于药物开发、商业咨询、付费服务

学术使用限制:仅限于非商业学术研究,研究成果需公开发表

数据使用限制:预测结果不得用于商业药物筛选或专利申请

违规后果:DeepMind保留法律追责权利,历史上已有违规使用案例被起诉

重大更新:AlphaFold3是结构生物学领域的”ChatGPT时刻”——从专用工具进化为通用生物分子预测平台,但其严格的非商业许可也引发了学术界对”开放科学”与”商业利益”的讨论

19. ColabFold

定位:AlphaFold2/AlphaFold3的简化版 | 最新版本:1.5.5(2024年更新,支持AlphaFold3)

特点

• 无需安装,浏览器运行

• 集成MMseqs2,速度更快

• 支持蛋白质复合物预测

新增:支持AlphaFold3的部分功能

推荐:初学者首选

20. ESMFold

定位:Meta开源的蛋白质结构预测 | 最新版本:ESM-2 + ESMFold(2023年发布,持续维护)

特点

• 单序列预测(无需MSA)

• 速度快,适合大规模预测

• 可商用

GitHub:https://github.com/facebookresearch/esm

21. ChimeraX

定位:分子可视化与分析 | 最新版本:1.8(2024年发布)

功能

• 蛋白质结构可视化

• 结构比对与分析

• 对接结果展示

特点:免费学术使用,功能强大

━━━━━━━━━━━━━━

七、抗体药物设计工具

⭐ 22. IgFold

定位:抗体结构预测专用模型 | 最新版本:1.0(2023年发布,持续维护)

功能

• 抗体Fv区结构预测

• CDR环高精度建模

• 速度比AlphaFold快100倍

特点

• 专门针对抗体序列优化

• 支持批量预测

• 开源可商用

GitHub:https://github.com/Graylab/IgFold

适用场景:抗体药物设计、抗体工程改造

23. AntiBERTy

定位:抗体序列的语言模型 | 最新版本:1.0(2022年发布)

功能

• 抗体序列表示学习

• CDR区性质预测

• 抗体人源化评估

特点:基于BERT架构,针对抗体序列训练

GitHub:https://github.com/alchemab/antiberty

24. AbLang

定位:抗体语言模型 | 最新版本:2.0(2023年发布)

功能

• 抗体序列编码

• 残基级别预测

• 抗体优化建议

特点:轻量级,易于集成

GitHub:https://github.com/oxpig/AbLang

25. BioPhi

定位:抗体人源化与免疫原性预测 | 最新版本:2023版

功能

• 抗体人源化设计

• 免疫原性风险评估

• 抗体开发性预测

特点:结合实验数据和机器学习

网站:https://biophi.dichlab.org/

26. DiffAb

定位:基于扩散模型的抗体设计 | 最新版本:2023版

功能

• 抗体CDR区从头设计

• 抗原特异性抗体生成

• 抗体亲和力优化

特点:生成式AI在抗体设计中的应用

GitHub:https://github.com/luost26/DiffAb

━━━━━━━━━━━━━━

八、核心数据集

⭐ 27. ChEMBL

定位:最大的生物活性数据库 | 最新版本:ChEMBL 34(2024年1月发布)

内容

• 220万+化合物

• 2000万+生物活性记录

• 覆盖靶点、疾病、作用机制

使用

• 官方网站:https://www.ebi.ac.uk/chembl/

• Python接口:pip install chembl-webresource-client

适用场景

• 构建训练数据集

• 靶点-化合物关系分析

• SAR/QSAR研究

28. PubChem

定位:最大的化学结构数据库 | 最新版本:持续更新,每日新增

内容

• 1.1亿+化合物

• 化学性质、生物活性、文献链接

使用

• 网站:https://pubchem.ncbi.nlm.nih.gov/

• Python接口:pubchempy

29. DrugBank

定位:药物信息综合数据库 | 最新版本:5.1.12(2024年发布)

内容

• 已批准药物

• 实验药物

• 药物-靶点-疾病关系

使用:https://go.drugbank.com/

30. PDB (Protein Data Bank)

定位:蛋白质结构数据库 | 最新版本:每周更新

内容

• 21万+实验解析的蛋白质结构

• X-ray/NMR/冷冻电镜数据

使用:https://www.rcsb.org/

31. MoleculeNet

定位:AI制药基准测试数据集 | 最新版本:与DeepChem同步更新

内容

• 多个分子性质预测任务

• 标准化的训练/验证/测试划分

集成:已内置在DeepChem中

32. BindingDB

定位:蛋白质-配体结合亲和力数据库 | 最新版本:2024版(持续更新)

内容

• 300万+结合数据

• Ki/Kd/IC50等多种度量

使用:https://www.bindingdb.org/

━━━━━━━━━━━━━━

九、多组学数据平台

⭐ 33. TCGA (The Cancer Genome Atlas)

定位:癌症基因组图谱 | 最新版本:数据持续更新,分析工具定期升级

内容

• 33种癌症类型的多组学数据

• 基因组、转录组、表观基因组、蛋白质组

• 11000+患者样本、临床数据整合

使用

• 门户网站:https://portal.gdc.cancer.gov/

• 分析平台:cBioPortal, GEPIA2

适用场景

• 癌症靶点发现

• 生物标志物研究

• 药物响应预测

34. GEO (Gene Expression Omnibus)

定位:基因表达数据仓库 | 最新版本:持续更新,每日新增

内容

• 高通量基因表达数据

• 芯片和测序数据

• 涵盖多种疾病和药物处理

使用:https://www.ncbi.nlm.nih.gov/geo/

适用场景

• 药物作用机制研究

• 疾病转录组特征分析

• 药物重定位

35. GTEx

定位:人类组织基因表达数据库 | 最新版本:V8(2020年发布,持续维护)

内容

• 53种人体组织的基因表达

• 基因型-表达量关联(eQTL)

• 组织特异性表达模式

使用:https://gtexportal.org/

适用场景

• 靶点组织特异性评估

• 副作用预测

• 生物标志物发现

36. CCLE (Cancer Cell Line Encyclopedia)

定位:癌细胞系百科全书 | 最新版本:2024版(持续更新)

内容

• 1000+癌细胞系

• 基因组、转录组、蛋白质组数据

• 药物敏感性数据

使用:https://sites.broadinstitute.org/ccle/

适用场景

• 药物筛选

• 靶点验证

• 耐药机制研究

37. DepMap

定位:癌症依赖图谱 | 最新版本:2024Q2(每季度更新)

内容

• 基因必需性数据

• 癌症细胞系多组学数据

• 药物敏感性数据

使用:https://depmap.org/portal/

适用场景

• 靶点优先级排序

• 合成致死靶点发现

• 药物组合预测

38. Human Protein Atlas

定位:人类蛋白质图谱 | 最新版本:23.0(2024年发布)

内容

• 人类蛋白质在细胞和组织的表达定位

• 病理学表达数据

• 血液蛋白质水平

使用:https://www.proteinatlas.org/

适用场景

• 靶点可成药性评估

• 组织特异性分析

• 生物标志物验证

39. STRING

定位:蛋白质相互作用网络 | 最新版本:12.0(2023年发布)

内容

• 蛋白质-蛋白质相互作用

• 功能富集分析

• 网络可视化

使用:https://string-db.org/

适用场景

• 靶点网络分析

• 通路富集分析

• 药物作用机制研究

━━━━━━━━━━━━━━

十、在线平台与API

40. SwissADME

定位:在线成药性预测

功能

• ADMET性质预测

• 药物相似性分析

• 合成可及性评估

网址:http://www.swissadme.ch/

特点:免费,无需注册,适合快速评估

41. ProTox-II

定位:毒性预测在线工具

功能

• 多种毒性终点预测

• 毒性机制分析

网址:https://tox-new.charite.de/protox_II/

42. PharmMapper

定位:反向找靶在线工具

功能

• 给定小分子,预测潜在靶点

网址:http://www.lilab-ecust.cn/pharmmapper/

━━━━━━━━━━━━━━

十一、学习路径建议

阶段1:化学信息学基础(1-2周)

1. 学习RDKit基础操作

2. 理解SMILES表示法

3. 掌握分子描述符和指纹

4. 练习:用RDKit处理ChEMBL数据

阶段2:分子对接入门(2-3周)

1. 学习AutoDock Vina使用

2. 掌握受体/配体准备流程

3. 理解对接打分函数

4. 练习:对目标蛋白进行虚拟筛选

阶段3:AI建模实践(4-6周)

1. 学习DeepChem框架

2. 掌握分子图表示

3. 实践:构建性质预测模型

4. 探索:分子生成模型

阶段4:蛋白质结构预测(2-3周)

1. 学习AlphaFold3/ColabFold使用

2. 理解结构预测原理

3. 实践:预测目标蛋白结构

4. 探索:蛋白质-配体复合物预测

阶段5:抗体设计(选修,2-3周)

1. 学习IgFold抗体结构预测

2. 了解抗体序列表示(AntiBERTy/AbLang)

3. 实践:抗体CDR区建模

4. 探索:抗体人源化评估

阶段6:多组学数据整合(选修,2-3周)

1. 学习TCGA/DepMap数据获取

2. 掌握多组学数据分析方法

3. 实践:靶点表达与必需性分析

4. 探索:药物响应预测

阶段7:综合项目(持续)

1. 选择一个靶点

2. 从靶点发现到先导化合物优化

3. 完整走一遍AI制药pipeline

━━━━━━━━━━━━━━

十二、推荐书单

📖 入门

• 《Python化学信息学》(RDKit官方推荐)

• 《Molecular Modeling Basics》

📖 进阶

• 《Deep Learning for the Life Sciences》

• 《Chemoinformatics: A Textbook》

📄 论文

• MoleculeNet: A Benchmark for Molecular Machine Learning

• AlphaFold: Highly accurate protein structure prediction

• • • • • • • • • •

📮 更新日志

2026-04-19 | 重大更新:所有工具更新至2024年最新版本;新增AlphaFold3详细介绍;新增抗体药物设计工具专题;新增多组学数据平台专题

2026-04-18 | 初版发布,收录30个工具/数据集

© 且来山笔记 2026 · 转载请注明出处