mgm美高梅平台官网版(中国)-Apple App Store

技术专栏

玩转uniprot数据库
供稿:技术部发布时间:2022-06-07浏览量:2400次

一、Uniprot蛋白数据库介绍及使用详解

Uniprot数据库是资源最广、信息最丰富的蛋白质数据库,是查询蛋白功能的首选数据库。Uniprot数据库由Swiss-Prot、TrEMBL和PIR-PSD三大子数据库构成,数据主要来自于各物种基因组测序完成后得到的全基因蛋白质序列,并包含了很多来自文献中的蛋白及其功能信息。尤其是swiss-prot 子数据库,库中蛋白质信息都是手工核对过的 ,非冗余, 有详细注释信息的蛋白数据。作为一名科研工作者,Uniprot数据库的使用技能应该是必备的技能之一。

(1)UniProtKB(UniProt Knowledgebase)是蛋白质序列、功能、分类、交叉引用等信息存取中心;UniProtKB 主要由两部分组成∶

UniProtKB/Swiss-Prot∶高质量的、手工注释的、非冗余的数据集;主要来自文献中的研究成果和 E-value 校验过计算分析结果。有质量保证的数据才被加入该数据库;

UniProtKB/TrEMBL∶该数据集包含高质量的计算分析结果,—般都在自动注释中富集,主要应对基因组项目获得的大量数据流以及人工校验在时间上和人力上的不足。注释所有可用的蛋白序列。在三大核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都被自动翻译并加入该数据库中。它也有来自 PDB 数据库的序列,以及Ensembl、Refeq和 CCDS基因预测的序列;

(2)UniRef(UniProt Non-redundant Reference)将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度。目前,根据序列相似程度形成 3个子库,即 UniRef10 0、UniRef90和 UniRef50;

(3)UniParc(UniProt Archive)是一个综合性的非冗余数据库,包含了所有主要的、公开的数据库的蛋白质序列。由于蛋白质可能在不同的数据库中存在,并且可能在同一个数据库中有多个版本,为了去几余,UniaraParc 对每条唯—的序列只存—次无论是否为同一物种的序列,只要序列相同就被合并为一条,每条序列提供稳定的、唯一的编号 UPI。该数据库含有蛋白质的序列信息,而没有注释数据。

UniProt 数据库中,UniProtKB/Swiss-Prot 是我们最常用的,今天我们主要介绍这个数据库的使用。我们在输入栏中输入CCL4L2,点击search,就会出现不同物种该蛋白的详细信息。找到我们想要的物种条目,点击进入。

 

Uniprot数据库主要子数据库组成:

以上子数据库间的关系如下:uniprot会收集EMBL,GenBank,DDBJ等公共数据库中的蛋白质序列及功能信息等原始数据,处理后存入UniParc的非冗余蛋白质序列数据库;UniPrc作为数据仓库,再分别给UniProtKB,Proteomes,UNIRef提供可靠的数据集,其中在UniProtKB数据库中Swiss-Prot是由TrEMBL经过手动注释后得到的高质量非冗余数据库,也是我们最常用的蛋白质数据库之一。

Uniprot数据库官方链接:https://www.uniprot.org/

1. 单个蛋白质信息查询

下图是Uniprot官方网站首页,在UniprotKB栏输入蛋白ID或Accession number,然后点击search,就可以查询蛋白功能。

我们以HUMAN  CCL4L2为例,搜索其在Uniprot数据库中的信息,如下图,页面默认显示Entry模式,页面显示内容包括:蛋白名称、物种来源、GO功能注释、亚细胞定位、组织特异性表达情况、互作蛋白、Domain、序列信息、同源蛋白以及其他数据链接等信息。

点击Display下Publications按钮,数据库会展示该蛋白发表已经收录的文章。

2. 批量蛋白质信息查询

假如需要查询的蛋白较多,则可以通过点击首行任务栏Retrieve/ID mapping,如下图,查询蛋白列表可直接粘贴在下图1. Provide your identifiers文本框中,也可以将蛋白ID单列粘贴于TXT文本中提交到网站。另外该页面2. Select options 还可提供ID转换功能,支持多种数据库间的ID转换。

提交好蛋白列表后,点击Submit,网站便会自动分析,结果展现形式如下:

展示信息包括:蛋白对应的基因名、蛋白描述、序列长度等信息。

点击Column按钮,可以选择需要展示的数据库信息,如GO、pathway、亚细胞定位等注释信息,如下图,选择完毕后点击save保存设置,系统会自动跳转至信息展示页面。

最终结果展示如下图,勾选感兴趣的蛋白,即可将本次注释结果下载到本地查看,并且支持包括Excel格式在内的多种文本格式。

Names & Taxonomyi

对于科研试剂销售工作者来说,用的比较多的是这个板块,该板块展示的是命名(其中包括蛋白名,基因名)和来源种属信息,如需要可以直接跳转到NCBI、Enzem数据库进行查询。

Subcellular locationi

之后是蛋白的亚细胞定位和拓扑结构。可以看到CCL4L2 是位于细胞膜外的分泌蛋白

PTM / Processingi

在PTM部分,列举着蛋白合成过程中,分子加工,氨基酸修饰及翻译后修饰,比如剪切、糖基化、脂酰化、二硫键位置等信息,可以了解到此蛋白的信号肽序列,和前体蛋白并加以列出。

Sequences (10+)i

序列这部分是科研工作者需要的重要信息,此部分列出了蛋白从信号肽开始的完整序列,如果该蛋白有不同的剪切体,各剪切体的序列也会一一列出。方便研究者取用。

今天Uniprot数据库的使用就介绍到这里,希望对您的科研有所帮助!

图片

关闭

在线咨询

Online consultation

  • 在线咨询
  • 技术支持

关注微信公众号

微信扫一扫立即咨询

微信扫一扫立即咨询