跳转至主要内容

且来山AI笔记

抗体研发数据库全景

Avatar photo 贝叔
最后编辑于 2026年5月26日

且来山笔记 · 贝叔

抗体研发数据库全景

从底层支撑到临床转化

共 17 个数据库 | 7 大类别 | 2026.05

上周发表了《AI赋能抗体分子优化:从经验筛选到计算设计的范式革命》之后,随即整理了公共可用的抗体相关数据集清单。

抗体领域的数据库生态相当丰富,从通用的蛋白质库到专项的抗体库,从免疫遗传学到临床药物信息,散落在不同的维护方手中,彼此之间还有依赖关系——SAbDab 的数据来自 PDB,SAbDab 的子库 Thera-SAbDab 又从中筛选出临床阶段的治疗性抗体。

本文分两部分:第一部分,通过遍历抗体药物开发流程,把主要数据库类别串一遍,帮助理解”什么阶段查什么库”;第二部分,是 17 个数据库的简明手册,按功能分类,给出定位、数据规模、核心用途和官网入口。

第一部分:场景串线——一个研发主管的数据库地图

1.1 发现阶段:找靶点,找抗体来源

抗体药物开发的起点是靶点确认。

拿到靶点蛋白名称之后,第一步通常是去 UniProt 查它的氨基酸序列、功能注释、是否已有结构记录。UniProt 是全球最权威的蛋白质数据库,包含 Swiss-Prot(人工审阅)和 TrEMBL(自动注释)两个子库,抗体靶点的序列信息基本都在这里。

确认了靶点,接下来要了解抗体的生物学背景——这里就进入免疫遗传学领域了。IMGT(The International ImMunoGeneTics Information System)是绕不过去的名字,它由 Marie-Paule Lefranc 教授于 1989 年创建,定义了抗体和 T 细胞受体(TCR)的命名法和编号规则(业界通行的 IMGT numbering 就出自这里)。如果要查抗体的基因序列(V(D)J 基因片段),还可以补充参考 GenBank/RefSeq,它们是美国 NCBI 维护的核酸序列公共库。

表位(epitope)是抗体结合的核心。IEDB(Immune Epitope Database)收录了超过 160 万个经实验验证的免疫表位,是目前全球最全面的表位数据库,由美国 NIAID 资助维护。

本阶段用到的库:UniProt → IMGT → GenBank/RefSeq → IEDB

1.2 优化阶段:从序列到结构

序列筛选阶段,需要大规模抗体序列数据支撑多样性分析和 AI 模型训练。OAS(Observed Antibody Space)收录超过 10 亿条独特抗体序列,是目前最大的抗体序列公共库;如果需要非冗余的标准化序列集,可以看 ABSD;研究种系基因(germline)来源则依赖 VBASE2,它专门整理人源和小鼠的 Ig V 基因种系序列。

拿到候选序列之后,下一步是结构预测。2021 年之后,这个环节基本被 AlphaFold DB 改变了——DeepMind 的 AlphaFold2/3 已经预测了超过 2 亿条蛋白质结构。

实验结构仍然是验证的基础。PDB(Protein Data Bank)是全球蛋白质结构数据的中央仓库。SAbDabSAAINT-DB 等结构类抗体数据库,都是在 PDB 基础上做的二次整理和注释。

本阶段用到的库:OAS / ABSD / VBASE2 → AlphaFold DB → PDB → SAbDab / SAAINT-DB

1.3 工程阶段:可重复性与标准化

进入工程化环节,抗体研究中有一个常被忽视的痛点:可重复性。不同实验室使用”同一个抗体”,实际上序列可能并不一致,导致结果难以复现。

ABCD(AntiBodies Chemically Defined)数据库专门针对这个问题——它为每个抗体序列分配唯一的 ABCD_ID 标识符,确保”序列即身份证”,也包含人源化程度和亲和力数据的标注。

本阶段用到的库:ABCD

1.4 临床阶段:竞品调研与靶点追踪

进入临床阶段,视角从技术转向竞争情报。

如果要调研竞争对手或参考已上市药物,Thera-SAbDab 是首选——它是 SAbDab 的子库,专门收录已注册 INN(国际非专利名称)的治疗性抗体,提供靶点、研发公司、临床阶段和 PDB 结构链接。

如果需要更系统的药物分类信息,IMGT/mAb-KG 是一个多维知识图谱,记录了超过 13 万个 mAb 相关三元组,涵盖功能、来源、偶联修饰等信息,包含 150 多种药物偶联抗体和 175 种融合抗体。

本阶段用到的库:Thera-SAbDab → IMGT/mAb-KG

1.5 AI 专项:为模型喂数据

公开数据质量参差不齐,直接从原始库拿数据往往需要大量清洗。Natural Antibody 整合了公开抗体数据库的原始数据,进行了系统化的清洗、去冗余和格式标准化处理,相比直接使用原始库,数据更适合直接用于 AI 模型训练。

本阶段用到的库:Natural Antibody

第二部分:数据库手册

全集收录,不做主观排名,定性描述均来自公开资料原文引用。

一、基础蛋白质/通用数据库

不专属于抗体领域,但为所有抗体数据库提供底层数据支撑。

1. UniProt
uniprot.org

核心定位:全球最权威的蛋白质序列与功能注释数据库之一,抗体氨基酸序列的标准查询来源。

关键详情:包含 Swiss-Prot(人工审阅)和 TrEMBL(自动注释)两个子库。最新规模约 2.5 亿条蛋白质序列。

适用场景:靶点蛋白序列查询、蛋白质功能注释、抗体结构域分析。

2. PDB(Protein Data Bank)
rcsb.org

核心定位:实验解析蛋白质三维结构的公共档案库,抗体三维结构的主要来源。

关键详情:全球蛋白质结构数据中央仓库,SAbDab、SAAINT-DB 等均基于 PDB 二次整理。最新规模超过 20 万个结构条目。

适用场景:抗体三维结构查询、原始结构数据下载、PDB ID 检索。

3. GenBank / RefSeq
ncbi.nlm.nih.gov/genbank

核心定位:美国 NCBI 维护的核酸序列数据库,抗体基因序列(V(D)J 基因等)来源之一。

关键详情:GenBank 是全球最大的开放获取核酸序列数据库;RefSeq 经非冗余化和人工审阅,提供更可靠的参考序列。

适用场景:抗体基因序列查询、V(D)J 基因分析、序列来源追溯。

4. AlphaFold DB
alphafold.ebi.ac.uk

核心定位:DeepMind AlphaFold2/3 生成的 AI 预测蛋白质结构数据库,补充实验未解析的抗体结构。

关键详情:收录超过 2 亿条 AI 预测蛋白质三维结构,覆盖 UniProt 中大部分蛋白质。

适用场景:快速获取抗体结构预测、补充实验结构空白、AI 模型输入结构数据。

5. Pfam / InterPro
pfam.xfam.org / ebi.ac.uk/interpro

核心定位:蛋白质家族和结构域注释工具,用于抗体可变区和恒定区的分类与标准化。

关键详情:Pfam 使用隐马尔可夫模型(HMM)定义蛋白质家族,收录超过 19000 个家族。InterPro 整合多个注释数据库,提供更全面的结构域分析。

适用场景:抗体结构域注释、蛋白质家族分类、序列功能预测。

二、序列类核心抗体数据库

适用场景:AI 序列模型训练、抗体多样性分析、V(D)J 基因研究

6. IMGT
imgt.org

核心定位:国际免疫遗传学信息系统,免疫学界公认的权威数据库,由 Marie-Paule Lefranc 于 1989 年创建。

关键详情:定义了抗体和 TCR 的命名法及业界通行的 IMGT numbering 编号规则,是抗体序列注释的底层标准。子库:IMGT/LIGM-DB(核苷酸序列)、IMGT/3Dstructure-DB(3D 结构与抗原互作)、IMGT/mAb-DB(治疗性 mAb)。

适用场景:抗体序列注释、V(D)J 基因分析、种系基因(Germline)比对、治疗性抗体查询。所有免疫学研究者的必备参考。

7. OAS(Observed Antibody Space)
opig.stats.ox.ac.uk/webapps/oas

核心定位:全球规模最大的抗体序列公共数据库,专注于观测到的抗体序列多样性。

关键详情:收录超过 10 亿条独特抗体序列,来源于 80 余项研究,涵盖未配对和配对的 VH、VL 序列,符合 AIRR 数据标准。

适用场景:AI 生成式抗体设计训练、序列多样性研究、高亲和力候选序列挖掘。

8. ABSD(Antibody Sequence Database)
absd.pasteur.cloud

核心定位:标准化、非冗余的抗体序列资源库,解决公共序列数据库的冗余问题。

关键详情:整合全球主要公共抗体序列数据库的数据,通过去重处理确保每条序列的唯一性,并保留来源追溯信息。

适用场景:AI 抗体序列模型训练数据整理、候选序列初筛、多样性分析。

9. VBASE2
vbase2.org

核心定位:人源和小鼠 Ig V 基因种系序列的专业数据库。

关键详情:整合多个来源的种系基因数据,定期更新,标注基因分型和序列特征信息,支持种系序列比对和检索。

适用场景:抗体人源化优化、种系基因分析、降低免疫原性研究。

三、结构类核心抗体数据库

适用场景:AI 结构预测、抗原-抗体结合分析、亲和力优化

10. SAbDab(Structural Antibody Database)
opig.stats.ox.ac.uk

核心定位:牛津蛋白质信息学小组(OPIG)维护的结构化抗体数据库,自动更新 PDB 中所有抗体相关结构。

关键详情:收录超过 8 万个结构条目(持续增长),数据高度结构化,包含 CDR 分类、结构比对信息,是目前最广泛使用的抗体结构数据库。

适用场景:抗体结构查询、CDR 分析、ML 训练数据集、结构比对与可视化。

11. SAAINT-DB
github.com/tommyhuangthu/SAAINT

核心定位:高精度、手动注释的结构抗体数据库,数据质量优于同类数据库。

关键详情:对 PDB 中的抗体结构进行精细人工审核和二次注释。最新版本(2025 年 5 月)包含 19128 个数据条目,来源于 9757 个 PDB 结构。

适用场景:高精度结构分析、AI 结构预测模型验证、抗体-抗原结合界面研究。

四、免疫表位类抗体数据库

适用场景:表位设计、免疫原性优化、疫苗开发

12. IEDB(Immune Epitope Database)
iedb.org

核心定位:全球最全面的免疫表位公共数据库,由美国 NIAID 资助维护。

关键详情:收录超过 160 万个经实验验证的免疫表位,包括线性肽段、非线性(构象)肽段及非肽段表位,标注抗体结合实验数据,提供在线表位预测工具。

适用场景:表位预测与验证、免疫原性评估、抗体-抗原结合位点分析、疫苗设计。

五、治疗性抗体专用数据库

适用场景:临床转化研究、竞品调研、靶点格局分析

13. Thera-SAbDab(Therapeutic SAbDab)
opig.stats.ox.ac.uk

核心定位:SAbDab 的临床导向子库,专门收录已进入临床试验或获批上市的治疗性抗体。

关键详情:提供药物名称(INN)、研发公司、靶点、临床开发阶段、对应 PDB 结构链接等信息。是调研竞品和学习成药性设计的首选工具。

适用场景:竞品分析、靶点竞争格局调研、临床阶段抗体结构参考、成药性设计学习。

14. IMGT/mAb-KG
imgt.org/imgt-kg/mabkg.html

核心定位:单克隆抗体多维分类知识图谱,整合治疗性抗体的功能、来源和临床信息。

关键详情:收录超过 13 万个 mAb 相关三元组,涵盖 1867 个概念类别、500 多个靶点、500 多种疾病适应症。包含 150 多个药物偶联抗体和 175 种融合抗体数据。

适用场景:抗体药物分类检索、靶点-适应症关联分析、药物偶联抗体调研。

六、专病/专靶点抗体数据库

适用场景:特定疾病领域研究、人源化设计、疾病追踪

15. CoV-AbDab
opig.stats.ox.ac.uk/webapps/covabdab

核心定位:冠状病毒(新冠)抗体专项数据库,OPIG 维护。

关键详情:系统收录所有已公开的新冠病毒及其变种(如 XBB)相关抗体数据,包含中和活性、逃逸突变谱等信息。

适用场景:新冠抗体疗法研究、病毒逃逸突变追踪、冠状病毒领域参考。

16. ABCD(AntiBodies Chemically Defined)
web.expasy.org/abcd

核心定位:序列定义的标准化抗体库,旨在解决抗体研究中的可重复性危机。

关键详情:为每个抗体序列分配唯一的 ABCD_ID 标识符,解决抗体命名混乱、批次不明确导致的可重复性问题,包含人源化程度和亲和力数据的标注。

适用场景:抗体可重复性保障、合成生物学应用、湿实验抗体选择参考。

七、AI/ML 优化数据集

适用场景:AI 抗体模型训练、模型验证 Benchmark

17. Natural Antibody
naturalantibody.com

核心定位:经清洗和标准化的抗体数据集,专为机器学习优化。

关键详情:整合公开抗体数据库的原始数据,进行系统化清洗、去冗余和格式标准化处理,相比直接使用原始库,减少了数据预处理的工程负担。

适用场景:AI 抗体模型训练数据准备、序列/结构模型 Benchmark 构建。

附:数据库快速索引

类别 数据库 核心用途 官网
基础层 UniProt 蛋白质序列+功能注释 uniprot.org
基础层 PDB 实验解析三维结构 rcsb.org
基础层 GenBank/RefSeq 核酸序列 ncbi.nlm.nih.gov
基础层 AlphaFold DB AI 预测三维结构 alphafold.ebi.ac.uk
基础层 Pfam/InterPro 结构域注释 pfam.xfam.org
序列类 IMGT 免疫遗传学标准 imgt.org
序列类 OAS 超大规模序列(>10 亿) opig.stats.ox.ac.uk
序列类 ABSD 非冗余标准化序列 absd.pasteur.cloud
序列类 VBASE2 种系基因序列 vbase2.org
结构类 SAbDab 结构抗体(>8 万条目) opig.stats.ox.ac.uk
结构类 SAAINT-DB 高精度结构注释 github.com/…/SAAINT
表位类 IEDB 免疫表位(>160 万) iedb.org
治疗性 Thera-SAbDab 临床/上市抗体 opig.stats.ox.ac.uk
治疗性 IMGT/mAb-KG mAb 知识图谱 imgt.org
专病类 CoV-AbDab 新冠抗体专库 opig.stats.ox.ac.uk
专病类 ABCD 序列定义抗体库 web.expasy.org/abcd
AI 专项 Natural Antibody ML 优化数据集 naturalantibody.com

贝叔 | 且来山笔记 | 数据整理自 2026 年 5 月

Avatar photo
贝叔

贝叔 生物学学习者 软件工业从业者 基因组学大数据探索者 新药开发践行者 AI应用记录者 且来山是回不去的故乡

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注