定义”AI找靶点”：疾病、多模态数据、标准化评测

最后编辑于 2026年4月28日

2026年4月20日，Nature Reviews Drug Discovery（NRDD，医药界顶刊中的顶刊，影响因子101.8）发表了一篇重磅综述，剖析了AI时代新药靶点发现可以采用的方法、数据集和评估标准：

Target identification and assessment in the era of AI（AI时代的靶点识别与评估）。

也是在四月，同一个团队在Scientific Reports发表文献，详细介绍了AI药物靶点发现的多模态模型TargetPro，以及评估靶点发现模型能力的基准评测体系TargetBench：

Advancing target discovery through disease-specific integration of multi-modal target identification models and comprehensive benchmarking system

NRDD综述由英矽智能（Insilico Medicine）团队牵头，联合Astellas、UNM等机构学者共同完成；Scientific Reports文章则主要来自英矽智能团队。作为AI制药领域最前沿的玩家之一，英矽智能正在用多篇重磅文章，努力建立一个”英矽宇宙”——从AI制药的成功案例开始、到能力平台介绍，直到尝试定义这个行业的标准。

本文主要通过对Scientific Reports文章进行解读，理解靶点发现的问题和方法。

一、TargetBench：行业内第一个标准化评测体系

TargetBench为行业内的靶点发现模型提供一个尺子，所有的新药靶点发现模型可以同台竞技。而对于AI制药企业来说，可以向用户提供一个清晰的框架来理解和相信模型的能力，从而更好的推进决策。

1. TargetBench的核心逻辑：

评测维度	说明
恢复已知靶点的能力	模型能否把已经被临床验证的靶点排在前列？
发现高质量新候选的能力	模型能否提出真正有价值的新靶点？

简单总结，TargetBench根据靶点是否有药物进入临床，作为区分靶点成药性的指征；通过评估靶点发现模型预测靶点成药性的能力，评测模型。

以真实临床获批 / 在研靶点为正样本、高置信无效 / 失败基因为负样本；为了避免回顾测试时，”数据泄露”导致模型预测能力异常，团队对数据进行了时间拆分。

2. 评估模型能力的指标体系：

(1) 核心排序指标（衡量”找得准”）

• AUPRC：正样本召回精度（靶点任务更重要，基线≈0.35）

• Top-K Recall（K=100/200/500）：前 K 个预测中真实临床靶点占比（核心临床指标，TargetPro 达 71.6%）

(2) 临床转化指标（衡量”用得上”）

指标	说明	TargetPro
结构可用性	新候选靶点有已知 3D 晶体结构比例	95.7%
成药性评分	可药口袋 / druggable 结构比例	86.5%
药物可复用性	已有获批药物可重定位比例	46%
机制清晰度	与疾病通路直接关联比例	89%

(3) 评测结论

TargetBench首次实现疾病分层、临床金标准、多指标互补的靶点模型客观对比。通过对多模态靶点预测模型Open Targets Platform、TargetPro，以及多个通用大语言模型（LLMs）进行比较；基于多模态数据、针对特定疾病特异性建模的模型，优于通用大语言模型和单纯依赖组学数据建模的模型。

二、TargetPro：疾病特异性建模

TargetPro 是干活的模型，它以疾病特异性为特点，先完成 22 项多模态特征标准化整合与降噪筛选，再通过集成机器学习模型逐病训练打分，依托 TargetBench 标准化基准数据集与统一评价指标，完成分层交叉验证、模型性能量化、靶点优先级排序，最终结合成药性与临床价值完成候选靶点分层评估与结果迭代。

1. 数据底座

TargetPro的数据底座是PandaOmics平台积累和处理的22项不同的特征数据，涵盖组学数据、科学文献、临床记录及经费资助，用于捕捉目标疾病之间的关联关系。其中12项来自组学的数据、10项来自文本的数据。

🔬 组学类评分（12 项）— 侧重基因–疾病的生物学关联强度

1. GWAS 共定位评分：疾病易感位点与基因调控区域共定位概率

2. eQTL 评分：基因表达受疾病风险位点调控的显著性

3. 突变致病性评分：基因上有害突变频率与功能影响

4. 拷贝数变异（CNV）评分：肿瘤中扩增 / 缺失与疾病关联

5. 差异表达（RNA-seq）评分：疾病 vs 正常组织 mRNA 变化倍数与显著性

6. 蛋白质丰度评分：蛋白水平与疾病相关性（蛋白质组）

7. 甲基化评分：启动子甲基化异常与疾病关联

8. 通路富集评分：基因在疾病相关通路中的重要性（KEGG/GO）

9. 蛋白互作（PPI）评分：与核心疾病蛋白的相互作用强度

10. 细胞系 / 类器官功能评分：基因敲除 / 过表达对疾病表型影响

11. 基因必要性评分：疾病细胞存活依赖度（CRISPR 筛选）

12. 保守性与进化约束评分：基因功能重要性与疾病保守性

📚 文本挖掘类评分（10 项）— 侧重文献 / 专利 / 临床证据热度与因果性

13. 总体提及热度（Attention）：PubMed / 专利 / 临床试验中基因–疾病共现次数

14. 趋势热度（Trend）：近 2–5 年发表量增长斜率

15. 热度突变（Spike）：是否出现突发性研究高峰（如重大突破）

16. 因果证据评分：文献中 “cause/mediate/induce” 等因果表述频率

17. 机制清晰度评分：基因–疾病通路机制描述的完整性与一致性

18. 临床关联评分：与患者预后、分期、药物反应的相关性报道

19. 药物可药性文本评分：文献中 “inhibitor/agonist/druggable” 提及强度

20. 专利覆盖评分：基因作为靶点的专利数量与布局广度

21. 专家关注度评分：领域高影响力作者 / 机构的研究集中度

22. 疾病特异性共现评分：排除泛疾病噪声后，基因与目标疾病的精准共现度

算法	选择理由
CatBoost	无偏提升分类，擅长处理类别型特征
LightGBM	高效梯度提升决策树
Random Forests	集成学习的经典选择
XGBoost	可扩展的树提升系统
Elastic Net	弹性网络正则化 + 变量选择

2. 初始版本覆盖38种疾病

分属五个领域：肿瘤学（Oncology）、代谢性疾病（Metabolic）、免疫性疾病（Immune）、纤维化疾病（Fibrotic）、神经系统疾病（Neurological）。每种疾病的发生机制不同，呈现不同的特点。

3. 模型建立和使用

多模态特征预处理

汇总 22 项基因组、转录组、蛋白互作、表观遗传、文献临床、结构成药特征，做缺失值填充、归一化、去冗余，按不同疾病做特征初筛。

疾病差异化建模训练

为 38 种疾病单独构建子模型，采用 XGBoost / 轻量级集成算法，依据疾病生物学特征自动分配特征权重，以临床验证正负靶点集做监督训练。

标准化基准对照

接入 TargetBench 统一评测库，使用固定的 1287 个临床正靶点、3856 个高置信负靶点作为金标准，规避数据集差异带来的评价偏差。

分层交叉验证

采用疾病分层 5 折交叉验证，防止数据泄露与样本偏倚，同步计算 AUROC、AUPRC、Top-K 召回率等核心指标。

全基因组靶点打分排序

对人类全部编码基因输出 0~1 量化评分，按疾病特异性得分降序排列，形成靶点候选列表。

多维度二次评估

叠加可成药性、组织特异性、安全风险、通路核心度、专利竞争格局，对高分靶点做临床转化潜力分级。

结果输出与模型迭代

输出优先级靶点清单与模型性能报告，用湿实验验证反馈反向优化特征权重与模型参数，形成闭环迭代。

4. 性能数据

• TargetPro整体Top-K精确率：71.6%

• 较领先的大语言模型方法性能提升 1.7-5.5倍

• 预测的新候选靶点中：95.7%具备可用蛋白质三维晶体结构，86.5%被归类为可成药靶点且有对应临床证据支持，46%与其他适应症已获批药物相关（存在老药新用机会）

三、贝叔总结

文中使用”target identification”而不是”target discovery”，一字之差，精确的反映出AI模型和研究人员工作的分工。模型给出的是潜在靶点的评分排序，最终还是人去做决定。

AI是最好的望远镜。但它不能代替我们决定往哪里看——也不能代替我们在看到之后，判断那个东西到底值不值得追。

至于英矽智能希望定义行业标准，贝叔是乐见更多的中国企业去设置Benchmark，引领全球产业进步。而进一步的，TargetBench做的这些工作以外，还有什么因素需要考虑？只以是否进入临床试验作为正负样本，会不会错杀真正原始的创新？多模态数据统一为22个指标，这22个指标所代表的简化逻辑以及相互之间的关联，怎么影响最终的预测结果？

参考资料

[1] Ren F, et al. A small-molecule TNIK inhibitor targets fibrosis in preclinical and clinical models. Nature Biotechnology, 2024. DOI: 10.1038/s41587-024-02143-0

[2] Ren F, Pun FW, et al. Advancing target discovery through disease-specific integration of multi-modal target identification models and comprehensive benchmarking system. Scientific Reports, 2026. DOI: 10.1038/s41598-026-47765-3

[3] Pun FW, Podolskiy D, et al. Target identification and assessment in the era of AI. Nature Reviews Drug Discovery, 2026. DOI: 10.1038/s41573-026-01412-8

[4] Insilico Medicine官方新闻稿. Insilico Medicine Advances AI-Driven Target Discovery with Validated TargetPro-TargetBench Framework. 2026-04-20.

作者：贝叔 | 且来山笔记

贝叔

贝叔生物学学习者软件工业从业者基因组学大数据探索者新药开发践行者 AI应用记录者且来山是回不去的故乡

分类：

AI生命探索者

标签：

多模态

评测基准

靶点识别

药物靶点故事：SGLT2的发现历史

2026年4月AI制药管线动态盘点：临床突破与重大合作一览

且来山AI笔记

定义”AI找靶点”：疾病、多模态数据、标准化评测

一、TargetBench：行业内第一个标准化评测体系

1. TargetBench的核心逻辑：

2. 评估模型能力的指标体系：

(1) 核心排序指标（衡量”找得准”）

(2) 临床转化指标（衡量”用得上”）

(3) 评测结论

二、TargetPro：疾病特异性建模

1. 数据底座

2. 初始版本覆盖38种疾病

3. 模型建立和使用

4. 性能数据

三、贝叔总结

参考资料

Previous Post

Next Post

发表回复取消回复

定义”AI找靶点”：疾病、多模态数据、标准化评测

一、TargetBench：行业内第一个标准化评测体系

1. TargetBench的核心逻辑：

2. 评估模型能力的指标体系：

(1) 核心排序指标（衡量”找得准”）

(2) 临床转化指标（衡量”用得上”）

(3) 评测结论

二、TargetPro：疾病特异性建模

1. 数据底座

2. 初始版本覆盖38种疾病

3. 模型建立和使用

4. 性能数据

三、贝叔总结

参考资料

Previous Post

Next Post

发表回复 取消回复

发表回复取消回复