AI制药开源工具与数据集合集
工欲善其事,必先利其器。这份合集整理了AI制药领域最常用、最实用的开源工具和数据集,涵盖分子建模、靶点预测、分子生成、虚拟筛选、抗体设计等核心环节。
━━━━━━━━━━━━━━
📌 写在前面
AI制药是一个高度交叉的领域,涉及化学信息学、生物信息学、机器学习等多个技术栈。对于刚入门的朋友,最大的困惑往往是:从哪里开始?用什么工具?
👥 适用人群
• 想动手实践的AI制药初学者
• 需要快速验证想法的研发人员
• 寻找baseline工具的研究者
💡 使用建议
• 初学者:从⭐标记的”入门首选”开始
• 进阶用户:根据具体需求选择专业工具
• 所有工具均为开源免费,部分提供商业版
• • • • • • • • • •
一、化学信息学基础工具
⭐ 1. RDKit
定位:化学信息学领域的”瑞士军刀” | 最新版本:2025.09.6(2025年9月发布)
功能:
• 分子结构解析与操作(SMILES/SMARTS/MOL)
• 分子描述符计算(分子量、LogP、TPSA等)
• 分子指纹生成(Morgan/AtomPair/Torsion)
• 2D/3D分子可视化、化学反应处理
语言:Python(C++底层)
安装:conda install -c conda-forge rdkit
学习资源:
• 官方文档:https://www.rdkit.org/docs/
• 中文教程:搜索”RDKit入门指南”
适用场景:所有涉及分子结构处理的任务
2. Open Babel
定位:分子格式转换专家 | 最新版本:3.1.1(2023年发布,持续维护)
功能:
• 支持100+种化学文件格式互转
• 分子结构优化与能量计算
• 批量处理大规模分子库
语言:C++(Python接口)
安装:conda install -c conda-forge openbabel
适用场景:数据预处理、格式统一、批量转换
3. OpenEye Toolkit(免费学术版)
定位:工业级化学信息学工具 | 最新版本:2024.1(2024年发布)
功能:
• 高级分子建模与分析
• 分子对齐与叠合
• 药效团建模
免费许可条件:
• 适用对象:学术机构、非营利研究机构、个人研究者
• 使用限制:仅限非商业研究用途,禁止用于商业药物开发或咨询服务
• 知识产权:使用OpenEye工具产生的研究成果可自由发表,但不得将工具本身集成到商业产品中
• 数据共享:部分功能要求研究成果在公共领域共享
• 申请审核:需提供学术机构邮箱和研究计划说明
注意:违反许可协议可能导致法律追责
申请:https://www.eyesopen.com/academic-licensing
━━━━━━━━━━━━━━
二、分子对接与虚拟筛选
⭐ 4. AutoDock Vina
定位:最流行的开源分子对接软件 | 最新版本:1.2.5(2023年发布)
功能:
• 蛋白质-配体对接
• 大规模虚拟筛选
• 结合亲和力预测
特点:
• 速度快(比AutoDock4快约100倍)
• 准确性高
• 易于使用
安装:conda install -c conda-forge autodock-vina
配套工具:
• AutoDockTools:受体/配体准备
• PyMOL:结果可视化
• ADFR:受体准备(推荐替代AutoDockTools)
学习资源:
• 官方教程:https://vina.scripps.edu/tutorials/
适用场景:药物设计、先导化合物优化、反向找靶
5. Smina
定位:AutoDock Vina的增强版 | 最新版本:基于Vina 1.2,持续更新
功能:
• 基于Vina的打分函数
• 支持自定义打分函数
• 更灵活的输入输出
优势:可训练自定义打分函数
6. GNINA
定位:深度学习增强的分子对接 | 最新版本:1.1(2024年更新)
功能:
• 结合CNN打分函数的分子对接
• 比传统方法更高的准确性
特点:GPU加速,适合大规模筛选
GitHub:https://github.com/gnina/gnina
7. LeDock
定位:国产分子对接软件 | 最新版本:2021版(持续维护)
功能:
• 蛋白质-配体对接
• 并行计算支持
特点:速度快,适合虚拟筛选
⭐ 8. DrugCLIP
定位:基于对比学习的亿级分子虚拟筛选平台 | 最新版本:2024版(持续更新)
功能:
• 百万倍提速:相比传统分子对接,筛选速度提升100万倍
• 基因组规模筛选:可在数小时内筛选数十亿分子库
• 对比学习架构:利用CLIP思想,将蛋白质和分子编码到同一语义空间
• 零样本预测:无需针对特定靶点训练,直接预测结合亲和力
免费数据库:
• DrugCLIPDB:包含10亿+虚拟分子,涵盖化学空间大片区域
• 实时更新:每月新增数百万分子
• 开放下载:学术用户可免费下载完整数据库
性能表现:
• 在DUD-E基准测试中,AUC-ROC达到0.95+
• 筛选10亿分子仅需数小时(传统方法需数月)
• 成功发现多个活性分子,部分已进入实验验证
GitHub:https://github.com/deepmodeling/DrugCLIP
适用场景:
• 大规模虚拟筛选、苗头化合物发现
• 化学空间探索、药物重定位
学习资源:
• 论文:《DrugCLIP: A Deep Learning Approach for Virtual Screening of Billion-Scale Chemical Libraries》
• 教程:GitHub仓库提供完整使用示例
特点:完全开源免费、支持GPU加速、提供预训练模型、社区活跃,持续更新
━━━━━━━━━━━━━━
三、分子动力学模拟
⭐ 9. GROMACS
定位:生物分子模拟领域的标准工具 | 最新版本:2025.1(2025年发布)
功能:
• 蛋白质/核酸/脂质的分子动力学模拟
• 自由能计算
• 大规模并行(支持GPU)
语言:C/C++
适用场景:
• 蛋白质构象变化研究
• 药物-靶点相互作用动态分析
• 变构位点发现
学习曲线:较陡,需要MD基础知识
10. Amber
定位:经典分子动力学软件 | 最新版本:Amber25(2025年发布)
特点:
• 力场参数丰富
• 自由能微扰(FEP)计算准确
注意:学术免费,商业收费
11. OpenMM
定位:现代分子动力学引擎 | 最新版本:8.2(2025年发布)
特点:
• Python接口友好
• 深度学习集成(支持PyTorch/TensorFlow)
• 高性能GPU加速
适用场景:AI+MD的交叉研究
━━━━━━━━━━━━━━
四、AI/机器学习工具包
⭐ 11. DeepChem
定位:面向药物发现的深度学习框架 | 最新版本:2.8.0(2024年发布)
功能:
• 分子特征化(GraphConv/Weave/MPNN等)
• 预训练模型(ChemBERTa/MolBERT等)
• 标准数据集(MoleculeNet)
• 完整的ML pipeline
语言:Python
安装:pip install deepchem
适用场景:
• 快速搭建分子性质预测模型
• 学习AI制药baseline
• 复现经典论文
官方教程:https://deepchem.io/
12. PyTorch Geometric (PyG)
定位:图神经网络框架 | 最新版本:2.6.0(2024年发布)
功能:
• 分子图表示学习
• GCN/GAT/GIN等图神经网络实现
• 大规模图数据处理
适用场景:基于图神经网络的分子建模
13. DGL-LifeSci
定位:基于DGL的生命科学工具包 | 最新版本:0.3.2(2023年发布,持续维护)
功能:
• 分子性质预测
• 蛋白质-配体相互作用预测
• 生成模型
特点:与RDKit深度集成
14. TorchDrug
定位:药物发现专用深度学习平台 | 最新版本:0.2.0(2023年发布)
功能:
• 分子生成模型
• 分子优化
• 大规模虚拟筛选
特点:模块化设计,易于扩展
━━━━━━━━━━━━━━
五、分子生成与优化
15. REINVENT
定位:基于强化学习的分子生成 | 最新版本:4.0(2024年发布)
功能:
• 从头分子生成
• 多目标优化(活性+成药性+可合成性)
• 支持自定义奖励函数
特点:辉瑞开源,工业级应用
GitHub:https://github.com/MolecularAI/Reinvent
16. MolGPT
定位:基于GPT的分子生成 | 最新版本:2023版(持续维护)
功能:
• SMILES序列生成
• 条件生成(指定骨架/性质)
特点:利用大语言模型思想生成分子
17. DeeperChem
定位:分子生成与优化工具集 | 最新版本:2023版
功能:
• VAE/GAN/Diffusion模型实现
• 分子优化pipeline
━━━━━━━━━━━━━━
六、蛋白质结构预测
⭐ 18. AlphaFold3
定位:生物分子结构预测的革命性突破——从单一蛋白质到通用生物分子复合物预测 | 最新版本:3.0(2024年5月发布)
核心突破:
• 统一架构:首次使用单一模型预测所有生物分子相互作用,取代AlphaFold2的专用模型组合
• 蛋白质-配体复合物:预测小分子药物如何与靶点结合,精度接近实验水平
• 蛋白质-核酸复合物:预测DNA/RNA与蛋白质相互作用,突破基因调控机制研究瓶颈
• 抗体-抗原复合物:预测免疫系统识别机制,加速抗体药物设计
• 翻译后修饰:预测糖基化、磷酸化等修饰后的结构变化
• 化学修饰:支持共价修饰、非天然氨基酸等
革命性意义:
AlphaFold3不再只是”预测蛋白质结构”,而是预测生命分子如何相互作用。这意味着:
• 药物发现:可在计算机中模拟药物与靶点的结合,大幅减少实验筛选
• 抗体工程:可预测抗体如何识别抗原,指导亲和力优化
• 基因治疗:可预测核酸递送载体的结构,优化递送效率
使用方式:
• AlphaFold Server(免费在线,每日限制):https://alphafoldserver.com/
• 本地安装(需要GPU,学术许可)
⚠️ 严格的非商业许可:
• 绝对禁止商业使用:包括但不限于药物开发、商业咨询、付费服务
• 学术使用限制:仅限于非商业学术研究,研究成果需公开发表
• 数据使用限制:预测结果不得用于商业药物筛选或专利申请
• 违规后果:DeepMind保留法律追责权利,历史上已有违规使用案例被起诉
重大更新:AlphaFold3是结构生物学领域的”ChatGPT时刻”——从专用工具进化为通用生物分子预测平台,但其严格的非商业许可也引发了学术界对”开放科学”与”商业利益”的讨论
19. ColabFold
定位:AlphaFold2/AlphaFold3的简化版 | 最新版本:1.5.5(2024年更新,支持AlphaFold3)
特点:
• 无需安装,浏览器运行
• 集成MMseqs2,速度更快
• 支持蛋白质复合物预测
• 新增:支持AlphaFold3的部分功能
推荐:初学者首选
20. ESMFold
定位:Meta开源的蛋白质结构预测 | 最新版本:ESM-2 + ESMFold(2023年发布,持续维护)
特点:
• 单序列预测(无需MSA)
• 速度快,适合大规模预测
• 可商用
GitHub:https://github.com/facebookresearch/esm
21. ChimeraX
定位:分子可视化与分析 | 最新版本:1.8(2024年发布)
功能:
• 蛋白质结构可视化
• 结构比对与分析
• 对接结果展示
特点:免费学术使用,功能强大
━━━━━━━━━━━━━━
七、抗体药物设计工具
⭐ 22. IgFold
定位:抗体结构预测专用模型 | 最新版本:1.0(2023年发布,持续维护)
功能:
• 抗体Fv区结构预测
• CDR环高精度建模
• 速度比AlphaFold快100倍
特点:
• 专门针对抗体序列优化
• 支持批量预测
• 开源可商用
GitHub:https://github.com/Graylab/IgFold
适用场景:抗体药物设计、抗体工程改造
23. AntiBERTy
定位:抗体序列的语言模型 | 最新版本:1.0(2022年发布)
功能:
• 抗体序列表示学习
• CDR区性质预测
• 抗体人源化评估
特点:基于BERT架构,针对抗体序列训练
GitHub:https://github.com/alchemab/antiberty
24. AbLang
定位:抗体语言模型 | 最新版本:2.0(2023年发布)
功能:
• 抗体序列编码
• 残基级别预测
• 抗体优化建议
特点:轻量级,易于集成
GitHub:https://github.com/oxpig/AbLang
25. BioPhi
定位:抗体人源化与免疫原性预测 | 最新版本:2023版
功能:
• 抗体人源化设计
• 免疫原性风险评估
• 抗体开发性预测
特点:结合实验数据和机器学习
网站:https://biophi.dichlab.org/
26. DiffAb
定位:基于扩散模型的抗体设计 | 最新版本:2023版
功能:
• 抗体CDR区从头设计
• 抗原特异性抗体生成
• 抗体亲和力优化
特点:生成式AI在抗体设计中的应用
GitHub:https://github.com/luost26/DiffAb
━━━━━━━━━━━━━━
八、核心数据集
⭐ 27. ChEMBL
定位:最大的生物活性数据库 | 最新版本:ChEMBL 34(2024年1月发布)
内容:
• 220万+化合物
• 2000万+生物活性记录
• 覆盖靶点、疾病、作用机制
使用:
• 官方网站:https://www.ebi.ac.uk/chembl/
• Python接口:pip install chembl-webresource-client
适用场景:
• 构建训练数据集
• 靶点-化合物关系分析
• SAR/QSAR研究
28. PubChem
定位:最大的化学结构数据库 | 最新版本:持续更新,每日新增
内容:
• 1.1亿+化合物
• 化学性质、生物活性、文献链接
使用:
• 网站:https://pubchem.ncbi.nlm.nih.gov/
• Python接口:pubchempy
29. DrugBank
定位:药物信息综合数据库 | 最新版本:5.1.12(2024年发布)
内容:
• 已批准药物
• 实验药物
• 药物-靶点-疾病关系
使用:https://go.drugbank.com/
30. PDB (Protein Data Bank)
定位:蛋白质结构数据库 | 最新版本:每周更新
内容:
• 21万+实验解析的蛋白质结构
• X-ray/NMR/冷冻电镜数据
使用:https://www.rcsb.org/
31. MoleculeNet
定位:AI制药基准测试数据集 | 最新版本:与DeepChem同步更新
内容:
• 多个分子性质预测任务
• 标准化的训练/验证/测试划分
集成:已内置在DeepChem中
32. BindingDB
定位:蛋白质-配体结合亲和力数据库 | 最新版本:2024版(持续更新)
内容:
• 300万+结合数据
• Ki/Kd/IC50等多种度量
使用:https://www.bindingdb.org/
━━━━━━━━━━━━━━
九、多组学数据平台
⭐ 33. TCGA (The Cancer Genome Atlas)
定位:癌症基因组图谱 | 最新版本:数据持续更新,分析工具定期升级
内容:
• 33种癌症类型的多组学数据
• 基因组、转录组、表观基因组、蛋白质组
• 11000+患者样本、临床数据整合
使用:
• 门户网站:https://portal.gdc.cancer.gov/
• 分析平台:cBioPortal, GEPIA2
适用场景:
• 癌症靶点发现
• 生物标志物研究
• 药物响应预测
34. GEO (Gene Expression Omnibus)
定位:基因表达数据仓库 | 最新版本:持续更新,每日新增
内容:
• 高通量基因表达数据
• 芯片和测序数据
• 涵盖多种疾病和药物处理
使用:https://www.ncbi.nlm.nih.gov/geo/
适用场景:
• 药物作用机制研究
• 疾病转录组特征分析
• 药物重定位
35. GTEx
定位:人类组织基因表达数据库 | 最新版本:V8(2020年发布,持续维护)
内容:
• 53种人体组织的基因表达
• 基因型-表达量关联(eQTL)
• 组织特异性表达模式
使用:https://gtexportal.org/
适用场景:
• 靶点组织特异性评估
• 副作用预测
• 生物标志物发现
36. CCLE (Cancer Cell Line Encyclopedia)
定位:癌细胞系百科全书 | 最新版本:2024版(持续更新)
内容:
• 1000+癌细胞系
• 基因组、转录组、蛋白质组数据
• 药物敏感性数据
使用:https://sites.broadinstitute.org/ccle/
适用场景:
• 药物筛选
• 靶点验证
• 耐药机制研究
37. DepMap
定位:癌症依赖图谱 | 最新版本:2024Q2(每季度更新)
内容:
• 基因必需性数据
• 癌症细胞系多组学数据
• 药物敏感性数据
使用:https://depmap.org/portal/
适用场景:
• 靶点优先级排序
• 合成致死靶点发现
• 药物组合预测
38. Human Protein Atlas
定位:人类蛋白质图谱 | 最新版本:23.0(2024年发布)
内容:
• 人类蛋白质在细胞和组织的表达定位
• 病理学表达数据
• 血液蛋白质水平
使用:https://www.proteinatlas.org/
适用场景:
• 靶点可成药性评估
• 组织特异性分析
• 生物标志物验证
39. STRING
定位:蛋白质相互作用网络 | 最新版本:12.0(2023年发布)
内容:
• 蛋白质-蛋白质相互作用
• 功能富集分析
• 网络可视化
使用:https://string-db.org/
适用场景:
• 靶点网络分析
• 通路富集分析
• 药物作用机制研究
━━━━━━━━━━━━━━
十、在线平台与API
40. SwissADME
定位:在线成药性预测
功能:
• ADMET性质预测
• 药物相似性分析
• 合成可及性评估
网址:http://www.swissadme.ch/
特点:免费,无需注册,适合快速评估
41. ProTox-II
定位:毒性预测在线工具
功能:
• 多种毒性终点预测
• 毒性机制分析
网址:https://tox-new.charite.de/protox_II/
42. PharmMapper
定位:反向找靶在线工具
功能:
• 给定小分子,预测潜在靶点
网址:http://www.lilab-ecust.cn/pharmmapper/
━━━━━━━━━━━━━━
十一、学习路径建议
阶段1:化学信息学基础(1-2周)
1. 学习RDKit基础操作
2. 理解SMILES表示法
3. 掌握分子描述符和指纹
4. 练习:用RDKit处理ChEMBL数据
阶段2:分子对接入门(2-3周)
1. 学习AutoDock Vina使用
2. 掌握受体/配体准备流程
3. 理解对接打分函数
4. 练习:对目标蛋白进行虚拟筛选
阶段3:AI建模实践(4-6周)
1. 学习DeepChem框架
2. 掌握分子图表示
3. 实践:构建性质预测模型
4. 探索:分子生成模型
阶段4:蛋白质结构预测(2-3周)
1. 学习AlphaFold3/ColabFold使用
2. 理解结构预测原理
3. 实践:预测目标蛋白结构
4. 探索:蛋白质-配体复合物预测
阶段5:抗体设计(选修,2-3周)
1. 学习IgFold抗体结构预测
2. 了解抗体序列表示(AntiBERTy/AbLang)
3. 实践:抗体CDR区建模
4. 探索:抗体人源化评估
阶段6:多组学数据整合(选修,2-3周)
1. 学习TCGA/DepMap数据获取
2. 掌握多组学数据分析方法
3. 实践:靶点表达与必需性分析
4. 探索:药物响应预测
阶段7:综合项目(持续)
1. 选择一个靶点
2. 从靶点发现到先导化合物优化
3. 完整走一遍AI制药pipeline
━━━━━━━━━━━━━━
十二、推荐书单
📖 入门
• 《Python化学信息学》(RDKit官方推荐)
• 《Molecular Modeling Basics》
📖 进阶
• 《Deep Learning for the Life Sciences》
• 《Chemoinformatics: A Textbook》
📄 论文
• MoleculeNet: A Benchmark for Molecular Machine Learning
• AlphaFold: Highly accurate protein structure prediction
• • • • • • • • • •
📮 更新日志
2026-04-19 | 重大更新:所有工具更新至2024年最新版本;新增AlphaFold3详细介绍;新增抗体药物设计工具专题;新增多组学数据平台专题
2026-04-18 | 初版发布,收录30个工具/数据集
© 且来山笔记 2026 · 转载请注明出处