抗体研发数据库全景
且来山笔记 · 贝叔
抗体研发数据库全景
从底层支撑到临床转化
共 17 个数据库 | 7 大类别 | 2026.05
上周发表了《AI赋能抗体分子优化:从经验筛选到计算设计的范式革命》之后,随即整理了公共可用的抗体相关数据集清单。
抗体领域的数据库生态相当丰富,从通用的蛋白质库到专项的抗体库,从免疫遗传学到临床药物信息,散落在不同的维护方手中,彼此之间还有依赖关系——SAbDab 的数据来自 PDB,SAbDab 的子库 Thera-SAbDab 又从中筛选出临床阶段的治疗性抗体。
本文分两部分:第一部分,通过遍历抗体药物开发流程,把主要数据库类别串一遍,帮助理解”什么阶段查什么库”;第二部分,是 17 个数据库的简明手册,按功能分类,给出定位、数据规模、核心用途和官网入口。
第一部分:场景串线——一个研发主管的数据库地图
1.1 发现阶段:找靶点,找抗体来源
抗体药物开发的起点是靶点确认。
拿到靶点蛋白名称之后,第一步通常是去 UniProt 查它的氨基酸序列、功能注释、是否已有结构记录。UniProt 是全球最权威的蛋白质数据库,包含 Swiss-Prot(人工审阅)和 TrEMBL(自动注释)两个子库,抗体靶点的序列信息基本都在这里。
确认了靶点,接下来要了解抗体的生物学背景——这里就进入免疫遗传学领域了。IMGT(The International ImMunoGeneTics Information System)是绕不过去的名字,它由 Marie-Paule Lefranc 教授于 1989 年创建,定义了抗体和 T 细胞受体(TCR)的命名法和编号规则(业界通行的 IMGT numbering 就出自这里)。如果要查抗体的基因序列(V(D)J 基因片段),还可以补充参考 GenBank/RefSeq,它们是美国 NCBI 维护的核酸序列公共库。
表位(epitope)是抗体结合的核心。IEDB(Immune Epitope Database)收录了超过 160 万个经实验验证的免疫表位,是目前全球最全面的表位数据库,由美国 NIAID 资助维护。
1.2 优化阶段:从序列到结构
序列筛选阶段,需要大规模抗体序列数据支撑多样性分析和 AI 模型训练。OAS(Observed Antibody Space)收录超过 10 亿条独特抗体序列,是目前最大的抗体序列公共库;如果需要非冗余的标准化序列集,可以看 ABSD;研究种系基因(germline)来源则依赖 VBASE2,它专门整理人源和小鼠的 Ig V 基因种系序列。
拿到候选序列之后,下一步是结构预测。2021 年之后,这个环节基本被 AlphaFold DB 改变了——DeepMind 的 AlphaFold2/3 已经预测了超过 2 亿条蛋白质结构。
实验结构仍然是验证的基础。PDB(Protein Data Bank)是全球蛋白质结构数据的中央仓库。SAbDab、SAAINT-DB 等结构类抗体数据库,都是在 PDB 基础上做的二次整理和注释。
1.3 工程阶段:可重复性与标准化
进入工程化环节,抗体研究中有一个常被忽视的痛点:可重复性。不同实验室使用”同一个抗体”,实际上序列可能并不一致,导致结果难以复现。
ABCD(AntiBodies Chemically Defined)数据库专门针对这个问题——它为每个抗体序列分配唯一的 ABCD_ID 标识符,确保”序列即身份证”,也包含人源化程度和亲和力数据的标注。
1.4 临床阶段:竞品调研与靶点追踪
进入临床阶段,视角从技术转向竞争情报。
如果要调研竞争对手或参考已上市药物,Thera-SAbDab 是首选——它是 SAbDab 的子库,专门收录已注册 INN(国际非专利名称)的治疗性抗体,提供靶点、研发公司、临床阶段和 PDB 结构链接。
如果需要更系统的药物分类信息,IMGT/mAb-KG 是一个多维知识图谱,记录了超过 13 万个 mAb 相关三元组,涵盖功能、来源、偶联修饰等信息,包含 150 多种药物偶联抗体和 175 种融合抗体。
1.5 AI 专项:为模型喂数据
公开数据质量参差不齐,直接从原始库拿数据往往需要大量清洗。Natural Antibody 整合了公开抗体数据库的原始数据,进行了系统化的清洗、去冗余和格式标准化处理,相比直接使用原始库,数据更适合直接用于 AI 模型训练。
第二部分:数据库手册
全集收录,不做主观排名,定性描述均来自公开资料原文引用。
一、基础蛋白质/通用数据库
不专属于抗体领域,但为所有抗体数据库提供底层数据支撑。
二、序列类核心抗体数据库
适用场景:AI 序列模型训练、抗体多样性分析、V(D)J 基因研究
三、结构类核心抗体数据库
适用场景:AI 结构预测、抗原-抗体结合分析、亲和力优化
四、免疫表位类抗体数据库
适用场景:表位设计、免疫原性优化、疫苗开发
五、治疗性抗体专用数据库
适用场景:临床转化研究、竞品调研、靶点格局分析
六、专病/专靶点抗体数据库
适用场景:特定疾病领域研究、人源化设计、疾病追踪
七、AI/ML 优化数据集
适用场景:AI 抗体模型训练、模型验证 Benchmark
附:数据库快速索引
| 类别 | 数据库 | 核心用途 | 官网 |
|---|---|---|---|
| 基础层 | UniProt | 蛋白质序列+功能注释 | uniprot.org |
| 基础层 | PDB | 实验解析三维结构 | rcsb.org |
| 基础层 | GenBank/RefSeq | 核酸序列 | ncbi.nlm.nih.gov |
| 基础层 | AlphaFold DB | AI 预测三维结构 | alphafold.ebi.ac.uk |
| 基础层 | Pfam/InterPro | 结构域注释 | pfam.xfam.org |
| 序列类 | IMGT | 免疫遗传学标准 | imgt.org |
| 序列类 | OAS | 超大规模序列(>10 亿) | opig.stats.ox.ac.uk |
| 序列类 | ABSD | 非冗余标准化序列 | absd.pasteur.cloud |
| 序列类 | VBASE2 | 种系基因序列 | vbase2.org |
| 结构类 | SAbDab | 结构抗体(>8 万条目) | opig.stats.ox.ac.uk |
| 结构类 | SAAINT-DB | 高精度结构注释 | github.com/…/SAAINT |
| 表位类 | IEDB | 免疫表位(>160 万) | iedb.org |
| 治疗性 | Thera-SAbDab | 临床/上市抗体 | opig.stats.ox.ac.uk |
| 治疗性 | IMGT/mAb-KG | mAb 知识图谱 | imgt.org |
| 专病类 | CoV-AbDab | 新冠抗体专库 | opig.stats.ox.ac.uk |
| 专病类 | ABCD | 序列定义抗体库 | web.expasy.org/abcd |
| AI 专项 | Natural Antibody | ML 优化数据集 | naturalantibody.com |
贝叔 | 且来山笔记 | 数据整理自 2026 年 5 月