21
0
已手工注释的70w+蛋白序列数据、蛋白结构数据API接口资源
本文旨在系统梳理当前主流的蛋白质数据API资源,从接口选择、请求构建、数据解析到批量获取策略,提供一套完整、可操作的实战指南。无论你是生物信息学入门者,还是希望优化现有数据流程的资深开发者,都能从中找到适合自身需求的解决方案。
推荐指数:
详细信息
已手工注释的70w+蛋白序列数据、蛋白结构数据API接口资源
在生命科学进入大数据时代的今天,蛋白质作为生命活动的直接执行者,其相关数据正以前所未有的速度累积。从UniProt中超过2.5亿条蛋白质序列记录,到PDB数据库中超过20万个精细的三维结构,再到STRING数据库中涵盖数千个物种的蛋白质相互作用网络,这些海量数据对科研人员的数据获取能力提出了全新挑战。
然而,面对众多分散的数据源、各异的接口规范、复杂的参数设置以及潜在的访问限制,许多研究者尤其是编程初学者往往不知从何入手。本文旨在系统梳理当前主流的蛋白质数据API资源,从接口选择、请求构建、数据解析到批量获取策略,提供一套完整、可操作的实战指南。
一、什么是蛋白API接口
蛋白API(Protein API)接口是指提供蛋白质相关数据访问的应用程序编程接口,广泛应用于生物信息学、药物研发、结构生物学等领域。通过这些接口,研究人员可以程序化地获取蛋白质序列、结构、功能注释、相互作用网络等关键数据,无需手动浏览网页或下载大型数据库文件。

图源:摩熵生物数据库
二、主流蛋白数据来源及API接口
1、摩熵数科开放平台 API
摩熵数科开放平台规整注释了UniProt、PDB、NCBI、InterPro、STRING等十余个全球最权威的蛋白数据。在其生化分子API接口栏目下公开展示了摩熵生物数据库中的蛋白序列数据与蛋白结构数据的关键字段。如下:
主要内容为蛋白序列数据,包含高质量的、手工注释的非冗余的蛋白质信息≥57万条,包含蛋白质的基本信息、序列、序列特征、功能、名称和谱系、亚细胞定位、疾病与变异、翻译后修饰、表达、相互作用等信息。
数据Demo
{
"数据ID":"2",
"蛋白检索号": "Q04844",
"蛋白检索名称": "ACHE_HUMAN",
"蛋白名称": "Acetylcholine receptor subunit epsilon",
"物种": "Homo sapiens(Human)",
"基因名称": "CHRNE",
"基因别名": "ACHRE",
"序列长度": "493",
"注释得分": "5.0",
"功能": {
"function": [
{
"功能描述": "After binding acetylcholine, the AChR responds by an extensive change in conformation that affects all subunits and leads to opening of an ion-conducting channel across the plasma membrane",
"参考文献": [
{
"来源": "PubMed",
"来源id": "27375219"
}
]
}
]
},
"疾病与变异": {
"疾病": [
{
"disease": {
"疾病名称": "Myasthenic syndrome, congenital, 4A, slow-channel",
"疾病id": "DI-04397",
"疾病缩写名": "CMS4A",
"疾病描述": "A form of congenital myasthenic syndrome, a group of disorders characterized by failure of neuromuscular transmission, including pre-synaptic, synaptic, and post-synaptic disorders that are not of autoimmune origin. Clinical features are easy fatigability and muscle weakness affecting the axial and limb muscles (with hypotonia in early-onset forms), the ocular muscles (leading to ptosis and ophthalmoplegia), and the facial and bulbar musculature (affecting sucking and swallowing, and leading to dysphonia). The symptoms fluctuate and worsen with physical effort. CMS4A is a slow-channel myasthenic syndrome. It is caused by kinetic abnormalities of the AChR, resulting in prolonged AChR channel opening episodes, prolonged endplate currents, and depolarization block. This is associated with calcium overload, which may contribute to subsequent degeneration of the endplate and postsynaptic membrane.",
"相关数据库": {
"数据库名称": "MIM",
"数据库id": "605809"
},
"证据": [
{
"来源": "PubMed",
"来源id": "12141316"
},
{
"来源": "PubMed",
"来源id": "27375219"
},
{
"来源": "PubMed",
"来源id": "7531341"
},
{
"来源": "PubMed",
"来源id": "7538206"
},
{
"来源": "PubMed",
"来源id": "8872460"
}
]
},
"相关内容": "The disease is caused by variants affecting the gene represented in this entry",
}
},
"序列": {
"序列描述": {
"氨基酸序列": "MARAPLGVLLLLGLLGRGVGKNEELRLYHHLFNNYDPGSRPVREPEDTVTISLKVTLTNLISLNEKEETLTTSVWIGIDWQDYRLNYSKDDFGGIETLRVPSELVWLPEIVLENNIDGQFGVAYDANVLVYEGGSVTWLPPAIYRSVCAVEVTYFPFDWQNCSLIFRSQTYNAEEVEFTFAVDNDGKTINKIDIDTEAYTENGEWAIDFCPGVIRRHHGGATDGPGETDVIYSLIIRRKPLFYVINIIVPCVLISGLVLLAYFLPAQAGGQKCTVSINVLLAQTVFLFLIAQKIPETSLSVPLLGRFLIFVMVVATLIVMNCVIVLNVSQRTPTTHAMSPRLRHVLLELLPRLLGSPPPPEAPRAASPPRRASSVGLLLRAEELILKKPRSELVFEGQRHRQGTWTAAFCQSLGAAAPEVRCCVDAVNFVAESTRDQEATGEEVSDWVRMGNALDNICFWAALVLFSVGSSLIFLGAYFNRVPDLPYAPCIQP",
"分子量": "54697"
}
}
}
主要内容为蛋白质结构数据≥20万条,包含经过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的生物大分子(蛋白质、核酸和糖)2.5维(以二维的形式表示三维的数据)结构数据,记录包括蛋白质结构、基本信息、实验数据、参考文献等。
数据Demo
{
"数据ID":"2",
"基本信息": {
"配体id": "001",
"配体名称": "1-[2,2-DIFLUORO-2-(3,4,5-TRIMETHOXY-PHENYL)-ACETYL]-PIPERIDINE-2-CARBOXYLIC ACID\n4-PHENYL-1-(3-PYRIDIN-3-YL-PROPYL)-BUTYL ESTER",
"配体缩写名": [
"FKB-001"
],
"蛋白质识别符": "[(4S)-1-phenyl-7-pyridin-3-yl-heptan-4-yl] (2S)-1-[2,2-difluoro-2-(3,4,5-trimethoxyphenyl)ethanoyl]piperidine-2-carboxylate",
"分子式": "<td>C<sub>35</sub> H<sub>42</sub> F<sub>2</sub> N<sub>2</sub> O<sub>6</sub></td>",
"分子量": "624.715",
"类型": "NON-POLYMER",
"SMILES": "COc1cc(cc(c1OC)OC)C(C(=O)N2CCCC[C@H]2C(=O)O[C@@H](CCCc3ccccc3)CCCc4cccnc4)(F)F",
"inchi": "InChI=1S/C35H42F2N2O6/c1-42-30-22-27(23-31(43-2)32(30)44-3)35(36,37)34(41)39-21-8-7-19-29(39)33(40)45-28(17-9-14-25-12-5-4-6-13-25)18-10-15-26-16-11-20-38-24-26/h4-6,11-13,16,20,22-24,28-29H,7-10,14-15,17-19,21H2,1-3H3/t28-,29-/m0/s1",
"inchikey": "NBYCDVVSYOMFMS-VMPREFPWSA-N",
"化学成分": "",
"bird类型": "",
"其他信息": "",
"其他描述": ""
},
"结构属性": {
"详细内容": {
"形式电荷": "0",
"原子数量": "87",
"手性原子": "2",
"化学键": "90",
"芳香键": "18"
}
},
"药物靶点": [
{
"靶点名称": "Peptidyl-prolyl cis-trans isomerase FKBP1A",
"靶点序列": "MGVQVETISPGDGRTFPKRGQTCVVHYTGMLEDGKKFDSSRDRNKPFKFMLGKQEVIRGWEEGVAQMSVGQRAKLTISPDYAYGATGHPGIIPPHATLVFDVELLKLE",
"药理作用": "unknown",
"作用机制": ""
}
]
}
2. UniProt API
UniProt(Universal Protein Resource)是全球权威的蛋白质序列与功能信息数据库。核心功能包含蛋白质序列查询、功能注释检索(GO注释、亚细胞定位等)、蛋白质ID映射(如从Gene Symbol映射到UniProt ID)。
3. RCSB PDB API
PDB(Protein Data Bank)是蛋白质三维结构的主要存储库。提供3D结构坐标文件下载(.pdb/.cif格式)、结构元数据查询(分辨率、实验方法等)、序列与结构对齐等功能。
4. NCBI Entrez E-utilities
NCBI提供的通用生物数据检索API,涵盖蛋白质数据库(Protein、RefSeq等)。能跨数据库检索、批量数据下载、序列相似性搜索(BLAST API)。
5. InterPro API
InterPro整合了多个蛋白质家族、结构域和功能位点数据库。拥有结构域与家族注释、蛋白质分类信息、序列特征分析。
6. STRING API
STRING数据库专注于蛋白质-蛋白质相互作用(PPI)网络。构建了相互作用网络,提供相互作用可信度评分、网络可视化数据导出。
三、其它蛋白数据API接口推荐
①BioPython:Python生物信息学库,封装了NCBI、UniProt等常用API。
②Pandas:用于结构化蛋白数据的清洗与分析。
③R的Bioconductor:R语言生态中的生物数据获取与分析工具集。
获取蛋白API接口数据的核心在于选对数据源 → 读懂API文档 → 合理控制请求频率 → 规范解析与存储。对于大规模数据分析,建议优先使用官方提供的批量下载工具,仅在需要动态查询或整合多源数据时采用API方式。始终遵守各数据库的使用条款,合理分配计算资源,才能高效、稳定地获取所需的蛋白质数据。
随机推荐
最新推荐