跳转至主要内容

且来山AI笔记

从PCC到IND:AI如何打破药物研发的线性瓶颈

Avatar photo 贝叔
最后编辑于 2026年5月8日

从PCC到IND:
AI如何打破药物研发的线性瓶颈

作者:贝叔  |  且来山笔记

如果说新药开发是九死一生的探险,那临床前研究就是其中的八次死亡:行业统计数据表明,约 85% 的候选化合物会因成药性不足、毒性、ADME 缺陷或靶点无效在临床前阶段出局,仅有 15% 左右能成功进入 I 期临床!

如果临床前研究注定九死一生,那等待死亡判决的漫漫长夜才是最大的痛苦:从拿到PCC(候选化合物)分子到IND(新药临床试验申请),传统路径要走3~5年,这其中超过 60% 的时间都在等待,如果当前环节的最终结论是fail,高昂的时间与现金成本早已消耗殆尽。

新药研发是实证科学,在一个完全遵循物理规律的路径上,研发人员获得这个药物的各种试验数据,然后再进行各种判断和决策。如果说对成功的判断需要依赖全面可靠的数据,那对于失败的判断本可以更早做出决策。在AI的时代,借助内外部的历史数据,通过特定的模型和算法,能够基于少量样本或信息,提前预测全流程的产出,是不是就可以提前发现失败,最终提高了临床前研究的成功率呢?

贝叔决定从药监局对IND申请最关心的核心材料开始,探询从PCC到IND的过程中,行业领先者们如何用AI打通数据孤岛、提前并行分析、缩短研发时间、提高研发成功率。


一、线性瓶颈在哪里:3到5年的时间账

药监局收到IND申请后,核心关注三个问题:能不能稳定生产(质量)、安不安全(非临床)、怎么临床验证(临床),在药品注册领域通行的CTD(Common Technical Document,通用技术文档)框架下,这三个问题对应申报材料中的模块3(质量/CMC)模块4(非临床研究)模块5(临床研究)

模块3质量研究:即CMC(化学、制造与控制)阶段,传统需要1到1.5年;这个阶段要完成原料药和制剂的小试工艺开发、中试放大、工艺验证,以及初步稳定性研究;其中最大的陷阱是放大效应——实验室小试跑通的工艺参数,一到中试规模往往”失灵”,需要重新摸索。

模块4非临床研究:非临床研究(药效、药代、毒理)阶段,传统需要1到2年,从时间上看是承上启下的阶段;毒理研究需要等前期CMC有了初步样品,才能启动设计;只有等毒理结果出来,后续临床方案才能确定起始剂量。

模块5临床研究:即制定临床方案与研究者手册的阶段,传统需要0.5年左右,通常是在模块3和模块4基本完成后才开始。

假设一个场景:某Biotech在推进一个first-in-class分子时,因CMC中试放大过程中结晶工艺出现问题,导致非临床研究的样品供应推迟了8个月,最终IND申报整整延期1年。幸运的是,项目最终成功推进到IND申报;但整个项目因为一个工艺环节的线性阻塞,多烧了数千万元的现金。

这类案例就发生在每个新药开发的团队日常工作中,本质上是线性依赖导致的时间脆弱性——任何一个环节的数据断层,都会让整个链条停摆;而前AI时代的重大决策依赖人工,在巨大的分子空间和影响因素面前,哪怕最有经验的专家也难以规范管理既有数据、更遑论产生穿越时间的洞察。


二、质量研究(CMC):把放大和稳定性评估提前

IND申报中的模块3,要求提交原料药(DS)与制剂(DP)的生产工艺、质量标准和稳定性数据。监管的核心关注是:这个分子,做得出、质量稳得住吗?

那么并行加速可以从哪里切入?

第一件事是提前进行放大预测

现状:传统路径里,中试规模的表现要等真的做中试才知道

AI赋能优化:AI的介入,可以在拿到小试数据后立即建模,预测中试甚至商业化规模的关键质量属性(CQA,Critical Quality Attribute)表现——粒径分布、杂质谱、收率。

最佳实践:晶泰科技在这个方向上有成熟实践:利用AI辅助晶型筛选和固相表征,在CMC阶段就能锁定最优晶型,避免进入工艺放大后因晶型不稳定导致的返工。一个晶型选择失误,可能让整个IND时间线推迟半年以上,AI的价值在这里是实实在在的。

第二件事是加速稳定性评估

现状:IND申报需要提交初步稳定性数据,但全规格的长期稳定性研究本身需要时间;好消息是FDA和CDE接受AST(Accelerated Stability Testing,加速稳定性试验)

AI赋能优化:结合AI预测的方式,用强化条件(高温、高湿)下的短期数据,通过AI外推长期稳定性趋势,提前获得对分子稳定性的预判。

第三件事是并行探索工艺参数

现状:传统的DoE(Design of Experiment,实验设计)需要逐一验证参数组合

AI赋能优化:AI可以通过历史批次数据和机器学习,在小试阶段就建立一个”参数-CQA”的预测模型,用最少的实验覆盖更大的参数空间。

⚠️ 与所有的AI模型一样:AI放大预测的准确性,取决于其模型算法、以及为算法输入的数据的丰富程度。如果是一个全新合成路径的分子,历史上没有类似数据,AI模型的预测可信度会明显下降;AI给出的是风险信号而非确切答案,最终仍需要实验验证。

监管动态

2022至2023年,FDA启动CMC Development and Readiness Pilot(CDRP)项目,通过增加FDA与申办方的CMC专题会议,支持企业将AI工艺预测、AI稳定性外推等方法纳入CMC开发策略,加速CMC readiness。

CDE在2024年12月发布的《模型引导的创新药物剂量探索和优化技术指导原则》,明确支持建模与模拟方法用于申报决策。


三、非临床研究:把安全评估提前到PCC阶段

模块4要求提交药效学(PD)、药代动力学(PK)和毒理学研究报告。监管的核心关注是:这个分子,安全吗?

并行加速从哪里切入?

最值得关注的是GLP毒理前置去风险

AI最大的贡献,是提前失败,让申办方在烧掉数以千万计的资金之前,果断止损;而且节约的资源和时间,可以投入到更有希望的项目中。

现状:GLP毒理研究的成本在数千万到上亿元量级,时间跨度6到18个月。分子一旦进了GLP毒理阶段,如果安全性出问题,整个投入就打水漂了。

AI赋能优化:AI的介入,可以在GLP研究启动之前,先用计算毒理手段把高风险分子过滤掉——hERG心脏毒性阻断风险、Ames诱变风险、靶器官毒性谱,都可以基于分子结构和历史同类数据进行预测。

最佳实践:阿斯利康公开披露,其内部AI驱动的DMTA(Design-Make-Test-Analyze)循环整合了计算毒理模块,可在分子设计阶段提前过滤高风险候选物,减少进入GLP阶段后因安全性问题导致的项目终止。

其次是PBPK建模提前预测人体PK曲线

现状:非临床PK数据(动物数据)如何预测人体药代特征,一直是IND申报中最关键的科学判断之一。

最佳实践:Certara的Simcyp PBPK平台被各大药企和CRO广泛用于IND申报的剂量预测,整合了丰富的人群生理参数数据库,支持将动物PK数据外推至人体起始剂量预测。

最后还有一个跨模块联动的价值点——在模块3中进行快速毒理评估以优化工艺

现状:合成工艺中产生的特定杂质谱(M3),如果结构上有毒理警示性基团,一般需要完成GLP毒理数据(M4)后才知道,此时决定是否回头优化工艺。

AI赋能优化:如果在M3阶段发现警示性基团,AI可以通过QSAR(定量构效关系)快速给出初步毒理评估,24小时内就能给出分析结果,指导工艺优化决策。

⚠️ 计算毒理不能替代GLP动物实验,这一点必须明确;AI的价值在于排除高风险分子,而不是证明分子安全。最终签字确认安全性的,仍然是GLP毒理数据。

2024年CDE发布的相关建模指导原则明确认可PBPK(基于生理的药代动力学)建模用于中国IND申报的剂量设计——这意味着利用AI辅助建模来支持剂量设计,在中国药政框架下也有了明确依据。


四、临床研究方案:把试验设计和数据分析提前

模块5要求提交临床试验方案(Protocol)、研究者手册(IB)和数据管理计划。监管的核心关注是:临床试验怎么设计,有没有初步的人体数据支持?

并行加速从哪里切入?

M4数据实时修正M5起始剂量——最关键的跨模块联动

非临床PK数据通过AI模型,可以快速建立”动物PK→人体PK”的转化映射,直接推算临床起始剂量范围,而不需要等到完整的GLP毒理报告出来才开始。

最佳实践:英矽智能(Insilico Medicine)的ISM001-055项目是目前最有代表性的案例:其整体临床前研究阶段仅用18个月完成,药效、PK、毒理的并行推进与AI辅助建模是关键加速因素之一——这个时间差,有相当一部分就来自于M4到M5的并行推进。

其次是虚拟临床试验(in silico trial)

现状:利用AI模型模拟临床终点,评估试验成功的概率,帮助申办方在正式开展临床前优化试验设计。

最佳实践:Unlearn.AI的数字孪生技术,通过为每位受试者生成匹配的对照组,已于2022年被EMA正式认定(qualify)用于减少临床试验入组人数——这对Biotech的现金流管理意义重大。


五、技术根基:并行加速为什么行

AI能在PCC到IND阶段实现并行加速,依赖了两个前提。

第一个前提:AI预测基于历史数据,而非无中生有。

AI模型的准确性,取决于训练数据对目标分子的覆盖程度。同类靶点、同类分子的数据积累越丰富,预测结果越可靠。这也是为什么辉瑞、阿斯利康、诺华等大药企在AI落地CMC和非临床时,比初创Biotech更有优势——他们有数十年的内部数据积累。

从另一个角度说,国内Biotech如果想在这个方向上建立壁垒,第一步不是建模型,而是把内部历史数据标准化、数字化。躺在纸质报告、或者分散在Excel中的数据是没有价值的,只有基于实验室信息管理系统(LIMS)建立标准的数据接口,成为AI模型的源头活水,才能打通数据孤岛,实现并行加速。

第二个前提:监管层面对AI数据的态度正在明确,申办方需要解释AI模型。

CDE《模型引导的创新药物剂量探索和优化技术指导原则》(2024年12月):明确支持建模与模拟方法用于IND申报决策,为PBPK等AI模型用于中国IND提供政策依据

FDA CDRP项目(2022-2023年启动):通过增加CMC专题沟通窗口,支持企业将AI辅助工艺开发数据纳入IND申报

FDA审评员对AI模型提出可解释性要求——仅提交预测结果不够,需要附上模型验证报告(Validation Report),回答”这个模型怎么建的、数据从哪来、准确性怎么验证、预测依据是什么”

如何向审评员解释AI模型?

审评员不只需要一个”预测分数”,更需要知道”这个分数是怎么来的”——这就是可解释性AI(XAI,Explainable AI)的价值所在。XAI的核心是让模型不仅给出预测结果,还要指出分子结构中的哪个片段导致了预测的风险。比如,计算毒理模型不仅给出”hERG风险:高”,还要标注出分子结构中哪个基团最可能是罪魁祸首。这不仅帮助内部决策,也是在审评沟通中建立信任的关键材料。


结语

英矽智能的ISM001-055项目,仅用18个月完成从靶点发现到候选化合物确定的早期研发全流程,随后顺利推进至临床IIa期。这个数字背后的启发,是:AI把科学家从”等待新数据、重复老错误”的循环中解放出来。无效等待的时间少了,科学家就可以把更多精力放在分子机制研究、临床策略判断这些真正需要人类智慧的工作上。

随着CDE和FDA对AI数据的认可持续深化,PCC到IND的周期有望进一步压缩。更大的图景在于:随着电子IND(eIND)实时审评(Real-Time Review)的趋势发展,未来AI驱动的动态数据流可能让”一次性递交”变成”持续性数据互动”——临床前数据产生的同时就进入审评通道,AI在数据产生的每一刻就已经在帮助科学家做判断。

附记:FDA于2026年4月28日正式启动实时临床试验(RTCT)倡议,同日宣布两项核心举措:一是正式上线两个概念验证(PoC)临床试验,以实时上报终点与安全信号;二是发布联邦公告(Federal Register Notice),就AI赋能技术如何提升临床试验效率征求意见,为后续试点项目提供框架参考。


本文首发于公众号「且来山笔记」| 作者:贝叔

Avatar photo
贝叔

贝叔 生物学学习者 软件工业从业者 基因组学大数据探索者 新药开发践行者 AI应用记录者 且来山是回不去的故乡

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注