AI制药的知识体系
最后编辑于 2026年4月4日
首先叠个甲,以下纯属漫天胡想,无法无天,如有不妥,请轻拍。
AI制药是一个高度交叉的领域,它融合了医学、药学、生物学、化学、计算机科学、人工智能。不管是现在的从业人员、还是希望转型的其他人员,只有构建一个多维的知识体系,才能够在这个充满希望的领域游刃有余。首先从现在AI应用最多的场景,即人工智能辅助药物发现(AIDD)所需的知识开始,以作为学习的路标。谨记两个问题:学了这么多,能不能得到更好的治疗药物?能不能让这个药物的开发过程更有效率?
一、需要解决的问题
- 靶点发现与验证
- 更有效的新靶点:通过AI汇总分析文献结论、分析基因组学、蛋白质组学数据,识别新的药物靶点
- 虚拟筛选与分子设计
- 更高效的虚拟筛选:根据靶点和作用机制,从分子库中虚拟筛选候选药物,包括小分子药物、抗体药物、ADC、siRNA以及其他各种分子类型
- 直击要害的设计分子:根据靶点和作用机制,基于对于分子层面微观属性的理解,从头设计全新分子结构
- 药代动力学预测
- ADMET性质(Absorb、Distribution、Metabolism、Excretion、Toxicity)
二、需要的知识
- 生命科学与药物研发
- 分子生物学与生物化学知识:理解相关的信号通路以及背后的疾病机制、靶点蛋白作为药物靶点的作用机制、靶点蛋白的结构。
- 有机化学和物理化学知识:理解化合物结构-活性关系、能够从微观视角量化建模,确保AI设计出的分子可以制造、可以应用。
- 分子生物学知识:理解DNA、RNA、蛋白质等大分子的结构,特别是蛋白质一级结构、二级结构、三级结构、四级结构的概念,蛋白质-配体结合的口袋。
- 药理学与药物代谢动力学知识:理解药物进入人体后是怎么吸收、分布、代谢和排泄的,以及如何判断药效和毒性。
- 生物医学大数据
- 多模态大数据,包括基因组学、表达组学、蛋白质组学、蛋白结构、小分子结构等各类多源异构数据的特征,不同数据分析的标准方法,多模态数据的对齐和融合分析。
- 公有和私有数据的获取,能够从PubChem、ChEMBL、PDB等核心专业数据库中有效获取信息,也能够规范整理私有数据。
- 大数据的管理和使用,能够构建知识图谱以整合分散的科学证据,理解时间复杂度、本体论建模、图算法和存储、搜索算法,高效处理大规模多模态数据。
- 数学
- 线性代数,线性代数是深度学习模型的核心语言。矩阵运算、特征分解、奇异值分解等内容在神经网络参数更新、特征降维与表示学习中广泛应用。在图神经网络中,邻接矩阵与拉普拉斯矩阵分析是理解信息传播机制的关键。
- 统计学和概率,概率分布、贝叶斯推断、最大似然估计与假设检验是构建预测模型与评估不确定性的基础。药物性质预测中常涉及不确定性估计与置信区间分析,因此统计理论尤为重要。
- 优化理论,梯度下降法、凸优化理论与拉格朗日乘子方法构成神经网络训练的理论基础。多目标优化问题在分子设计中十分常见,例如同时优化活性、毒性与溶解性,需要理解权衡机制与约束优化方法。
- AI知识
- 计算化学与分子模拟,比如分子对接和分子动力学模拟,能够在分子层面虚拟评估化合物与靶点的结合情况。
- 机器学习和深度学习,用于预测化合物的活性、功能、ADMET等任务,需要理解监督学习、无监督学习和强化学习这些核心算法。
- 生成式人工智能,用于“从头开始”设计全新的化合物分子,或者对已有分子的特定属性进行优化,需要理解生成对抗网络、变分自编码器、扩散模型,以及当红炸子鸡大语言模型。
- AI智能体系统,能够自主推理、协调多步骤任务并持续迭代优化,比如复杂的文献交叉分析、干实验和湿实验自动化连接,可以学习基于大语言模型的ReAct、Reflection等架构。 AI智能体系统相当于一个整合了“感知、计算、行动与记忆”等工具的小型专家团队。
- 软件工程能力
- 程序设计语音,主要是Python、R语言
- AI相关程序工具,如Python工具库深度学习框架(如PyTorch或TensorFlow)、科学计算库(NumPy、SciPy)、数据处理工具(Pandas)化学信息学工具(如RDKit),R语言的复杂模式识别、多源信息整合、自动化分析工具包等
- 软件工程知识,工程能力直接影响研究效率与可复现性
在这个知识体系中,药物为顶层,AI为支撑;制药知识为道,AI知识为术,取道才能优术,优术未来更好取道。如果只关注AI的模型、算法,则偏离制药的大道,反而背道而驰。恰好今天在亦庄疫苗与抗体药物大会上听疫苗相关报告,讲者和听众就膜免疫反应、佐剂的影响等热烈讨论,这一刻会更理解AI和制药的距离,这个距离就是制药人的品味、制药人对于好药的拷问。加油,AI,让健康生活多一点!