当前位置:首页 > 作文大全 >

如何利用NCBI的资源与工具检索基因/基因编码产物的功能

发布时间: 2022-04-07 10:38:54 浏览:

摘要:美国国立生物技术信息中心(NCBI)是目前国际上几个重要的生物信息学网站之一,Entrez是NCBI的数据库检索查询系统,BLAST是NCBI开发的序列相似搜索程序,本文重点介绍如何利用Entrez检索查询系统以及BLAST序列相似搜索程序在NCBI的多个数据库中检索基因/基因编码产物的功能。

关键词:NCBI;生物信息学;基因功能;Entrez;BLAST

Abstract:NCBI (National Center for Biotechnology Information) is one of the most important international bioinformatics websites. Entrez is database searching system of NCBI.BLAST is sequence similarity searching program developed by NCBI. This article introduces the skills of searching the function of a gene or gene product by Entrez and BLAST in several database of NCBI.

Key words:NCBI;Bioinformatics;Function of gene;Entrez;BLAST

21世纪是生命科学的时代,也是信息时代,生物信息学在这样的历史环境中孕育而生。美国国立生物技术信息中心(National Center for Biotechnology Information,简称NCBI)是目前国际上几个重要的生物信息学网站之一,它的任务就是发展新的信息学技术以促进医学与生物学的进展。Entrez是NCBI的数据库检索查询系统,它是基于Web界面的综合生物信息数据库检索系统;BLAST是NCBI开发的序列相似搜索程序,可作为鉴别基因和遗传特点的手段。本文重点介绍如何利用Entrez检索查询系统以及BLAST序列相似搜索程序在NCBI的多个数据库中检索基因/基因编码产物的功能。

1 NCBI的资源与工具简介

NCBI的资源简介[2,5,6]:NCBI的资源主要有以下三类:

第一类文献型数据库:包括PubMed、PubMed Center、OMIM(孟德尔人类遗传)、OMIA(动物在线孟德尔遗传)以及Books(书库)等。

第二类分子数据库:包括Nucleotide(核酸序列库)、Protein(蛋白质序列库)、Protein Clusters(蛋白质聚类数据库)、Gene(基因数据库)、Structure(结构数据库)、Taxonomy(分类学数据库)等。其中Nucleotide数据库收录了目前世界上所有已知的、公开的核酸序列记录。Protein数据库收录了目前世界上所有已知的、公开的蛋白质序列记录。Gene数据库提供基因的功能信息以及基因在染色体中的定位情况。

第三类基因组数据库:包括Genome(基因组数据库)、Genome Project(基因组计划数据库)、Cancer Chromosomes(癌症染色体数据库)等。

1.2 NCBI的工具简介 第一类检索工具:NCBI只有一种检索工具-Entrez,Entrez是NCBI的数据库检索查询系统,它是基于Web界面的综合生物信息数据库检索系统。利用Entrez系统,用户不仅可以方便地检索PubMed等NCBI的文献型数据库,还可以检索Nucleotide和Protein等分子数据库,以及基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集等[1]。

第二类数据分析工具:包括BLAST、Map Viewer、Model Maker、Electronic PCR(e-PCR)、Spidey、Splign等。其中BLAST是一种进行序列相似性搜索的程序,它可以对核酸序列或蛋白质序列进行分析[3,9]。

第三类下载工具:NCBI提供多个数据库与多种工具的下载,包括Nucleotide Sequence、Protein Sequence和BLAST等。

2如何利用NCBI的资源与工具检索基因/基因编码产物的功能

2.1 使用基因名称进行检索 如果知道基因名称,可以在NCBI主页上的Entrez检索系统中选择所要检索的数据库为Gene,然后在检索输入框内输入基因名称,就可以得到该基因的功能信息和定位情况,以及相关的文献目录。

为了提高检索的检准率,检索用户在进行上述检索的时候,应该进行强制短语检索,即在Entrez检索框内用双引号将检索词括起来,这样Entrez检索系统才会将检索词作为一个单词来进行检索,否则,Entrez检索系统会在各单词之间按照"and"逻辑关系自动执行布尔逻辑运算,导致检准率降低。同时检索用户在进行检索时应输入基因名称的检索限定词[GENE],限定输入的检索词为基因名称,可以进一步提高检索的检准率[1]。

2.2 使用序列接受号进行检索 NCBI的序列数据有两种特殊标志符,一种叫序列辨认号(GI),是一串阿拉伯数字,当序列被修改后,NCBI会给新的序列指定一个新的GI号码。第二种叫序列接受号(Accession),一条序列记录只有一个唯一的序列接受号,当序列被修改后,序列接受号仍然不变。Entrez检索系统允许通过序列接受号进行检索(可输入或不输入检索限定词,因为Entrez检索系统能自动识别序列接受号),而且序列接受号会在已发表的文献中出现,所以知道了序列接受号,检索用户就可以进行检索了[1]。

如果已知序列接受号,要检索基因功能或基因编码产物功能,则在NCBI主页的Entrez检索系统中选择所要检索的数据库为全数据库检索,然后输入序列接受号,检索界面会返回所有数据库的检索结果。这时会出现两种情况:第一种情况是在Gene数据库中有检索结果,如果在Gene数据库中找到检索结果则可以直接察看结果;第二种情况是在Gene数据库中没有找到检索结果,那么察看Nucleotide或Protein数据库的检索结果(如果检索用户在Entrez检索系统中输入的是核酸序列的序列接受号,则在Nucleotide数据库中能检索到结果;如果检索用户在Entrez检索系统中输入的是蛋白质序列的序列接受号,则在Protein数据库中能检索到结果)。

针对第二种情况,点击Nucleotide或Protein数据库的检索结果,在数据库的检索结果显示界面可以看到序列的相关信息。这时又可能会出现两种情况:第一种情况是在检索结果的显示界面的右方会出现一个链接"More about the XXX gene",那么可以直接点击链接察看相关的基因功能信息;第二种情况是在检索结果的显示界面的右方没有"More about the XXX gene"的链接,那么如果检索的是蛋白质序列,则可以点击Protein数据库检索结果显示界面的右方的"Analyze this sequence"按键下的"Identify Conserved Domains"按键,系统将返回一个关于该蛋白质功能区域的信息列表;如果检索的是核酸序列,则可以点击Nucleotide数据库检索结果显示界面的右方的"All Links to this Record"按键察看相关的序列、蛋白质或PubMed相关的参考信息,甚至还可以运行BLAST程序来进行序列相似性分析,然后再在分析结果中进一步查找基因的功能信息,具体方法在2.3中进行介绍。

2.3 使用序列进行检索 在使用序列进行检索时,检索用户必须要使用到BLAST。BLAST是NCBI开发的序列相似性搜索程序,可作为鉴别基因和遗传特点的手段。BLAST分为5种,包括blastn(nucleotide blast),blastp(protein blast),blastx,tblastn和tblastx。其中blastn是核酸序列到核酸库中的一种查询,库中存在的每条已知序列都将同所查询序列作一对一地核酸序列比对;blastp是蛋白质序列到蛋白质库中的一种查询,库中存在的每条已知序列将逐一地同每条所查询序列作一对一的序列比对;blastx是核酸序列到蛋白质序列库中的一种查询,先将核酸序列翻译成蛋白质序列,再对每一条蛋白质序列作一对一的蛋白质序列比对;tblastn是蛋白质序列到核酸库中的一种查询,与blastx相反,它是将库中的核酸序列翻译成蛋白质序列,再同所查询序列作蛋白质序列与蛋白质序列的比对;tblastx是核酸序列到核酸库中的一种查询,此种查询是将库中的核酸序列和所查询的核酸序列都翻译成蛋白质序列再做一对一的比对[4,7,8]。

如果检索的序列是蛋白质序列,则选择blastp进行序列相似性分析,检索结果会返回与查询序列相似的蛋白质序列,这时选择相似序列的序列接受号,重复2.2的操作进一步察看该序列的功能信息。

如果检索的序列是核酸序列,则选择blastn或blastx进行序列相似性分析,检索结果会返回与查询序列相似的核酸序列或翻译的蛋白质序列,有些检索结果可能有直接的链接链接到Gene数据库,那么可以直接察看Gene数据库的检索结果;如果没有直接的链接,则可以选择相似序列的序列接受号,重复2.2的操作进一步察看该序列的功能信息。

参考文献:

[1]李轶.GenBank数据库检索及其应用--Entrez检索功能[J].中华医学图书情报杂志,2008,17(5):49-51.

[2]饶冬梅.NCBI数据库及其资源的获取[J].科技视界,2013,07:53-54.

[3]王哲,黄高升.NCBI的数据库资源及其应用[J].生命科学,2002,14(1):59-62.

[4]张见影,伦志军,李正红.NCBI基因序列数据库使用和检索方法[J].现代情报,2003,12:224-225.

[5]叶协杰,娄长春.Entrez集成化数据库系统功能和检索技巧[J].医学情报工作,2004,06:428-430.

[6]黄春燕,韦成礼,樊妙姬.美国NCBI网站Entrez资源整合系统的检索与利用[J].情报杂志,2003,04:78-79,82.

[7]宋凌云.序列相似性检索工具BLAST的使用和检索[J].情报探索,2008,04:74-75.

[8]丁六松,张宇伟.BLAST序列比对与生物医学文献检索[J].情报检索,2003,04:74-75.

[9]孙金立,梁蜀忠,李希明.生物信息检索在医学中的应用[C].中国仪器仪表学会医疗仪器分会2010两岸四地生物医学工程学术年会论文集.

[10]杨春华,王桂芝,王志萍.NCBI的Entrez系统检索技巧[J].现代图书情报技术,2003(年刊):80-81.编辑/申磊

相关热词搜索: 基因 产物 编码 利用 检索

版权所有:无忧范文网 2010-2024 未经授权禁止复制或建立镜像[无忧范文网]所有资源完全免费共享

Powered by 无忧范文网 © All Rights Reserved.。冀ICP备19022856号