基因序列ORF分析(基于EMBOSS)

ORF介绍:

开放阅读框(Open Reading Frame,ORF,开放阅读框架、开放读架等)是指在给定的阅读框
架中,不包含终止密码子的一串序列。这段序列是生物个体的基因组中可能作为蛋白质编码序列的
部分,包含从 5’ 端翻译起始密码子(AUG)到终止密码子(UAA、UAG、UGA)之间的一段编码
蛋白质的碱基序列。由于一段 DNA 或 RNA 序列有多种不同读取方式,因此可能同时存在许多不同的开放阅读框架。

对于任何给定的核酸序列,根据密码子的起始位置,可以按照三种方式进行解释,其反向互补 序列又含有三种。因此,一条 DNA 序列可以按六种框架阅读和翻译。ORF 的识别需要检测这六个 阅读框架并决定哪一个包含以起始密码子和终止密码子为界限的 DNA 序列而其内部不包含终止密 码子,识别出蛋白质序列最长的 ORF。长的 ORF 往往不是偶然发生的,所以在任何阅读框中存在 300bp 或更长的未中断的编码序列是判断一个基因的重要依据。

一个 ORF 存在一个潜在的编码序列(Coding DNA Sequence,CDS),不同的 ORF 翻译成氨 基酸可以得到不同的蛋白质编码。一个 ORF 对应一个候选的CDS,分析 DNA 序列中的ORF是对该序列是否为CDS的初步判断,是研究DNA序列片段的方法之一。用于ORF分析的软件一般使用ORF Finder。
百度百科:ORF开放阅读框

软件介绍:

EMBOSS(European Molecular Biology Open Software Suite)软件包是一个开源的序列分析软 件包,该软件包源于 1988 年开始开发的 EGCG 系统,是一组为分子生物学家所设计的公开且免费 的软件。它整合了目前可以获得的大部分序列分析软件并有一套专门设计的 C 语言函数。该软件 包含 160 多个小型程序,能够自动识别处理以不同格式存储的数据,甚至可以通过互联网提取数 据,能很好地进行序列模体挖掘、关键词同源性数据库搜索、序列比较、进化分析、序列二级结构 分析、限制性酶切图谱分析、引物设计、序列模式识别与翻译、片段拼接等工作,可以满足一般 实验室的各种各样的序列分析要求。同时它提供了一个扩展库,以方便科学家依据自由软件精神 编制、发布软件。使用 EMBOSS,可以将系列分析工作进行无缝整合,弥补了很多其他软件功能 分散、分析效率底下的缺陷。EMBOSS 遵照 GPL 协议,打破了商业软件包发展的传统模式,使科 研工作者自由、免费的使用功能强大的分析工具。使用者可以通过三种不同的方式使用 EMBOSS 软件:第一种是通过命令行的方式;第二种是通过 X-Windows 的方式使用 EMBOSS 软件的图形界 面;第三种是联网的方式。使用者可以免费获得这些软件以及相关界面程序。EMBOSS 的主页网 址为 http://emboss.sourceforge.net

​ EMBOSS 软件包主要运行于 Linux 操作系统和 Mac 操作系统。现在基于 Windows 操作系统的 EMBOSS 也能自由免费使用。需要说明的是基于 Windows 操作系统时,主要采用 Staden 进入 EMBOSS,在使用时,需要安装 Embosswin 软件。Embosswin 的下载网址是:ftp://emboss.open-bio.org/ pub/EMBOSS/wEMBOSS Explorerindows

​ EMBOSS源码是完全开源的,其核心程序的基本设计与各种开发平台相兼容,可以供研究人 员作为开发应用程序的平台,不同的机构也因此开发了各种 EMBOSS 使用界面,包括 Jemboss、 Other GUIs、Web interfacaes、Workfolws、Ports and packages 等(这些几乎都是需要实打实的安装在电脑上的)。 接下来我们要用的是:

EMBOSS Explorer:

​ EMBOSS Explorer 是 Web interfaces 的一种界面,利用 EMBOSS Explorer 可将 EMBOSS 软件从单机版变为网络版,可以让更多的人享用已有的分析平台。这个版本 适合安装在服务器上,提供在线分析。EMBOSS Explorer 的主界面,左边的区域是程序列表, 右边的区域是执行程序区域。

EMBOSS.PNG

​ 正如图片所见,EMBOSS的功能非常丰富,今天我们需要用到的就两个:

  1. extractseq——用于截取一段基因片段。
  2. getorf——用于具体片段的ORF的分析。

操作过程:(以大肠杆菌基因组序列的ORF分析为例)

  1. 获取序列。登录NCBI主页(http://www.ncbi.nlm.nih.gov/ ),在核酸(Nucleotide)数据库查询大肠杆菌基因组序列(U00096),将其以FASTA格式保存到本地计算机上。

  2. 打开EMBOSS。有 http://emboss.bioinformatics.nl/http://genome.csdb.cn/emboss/ 多个EMBOSS Explorer可供选用,任选其一打开链接即可使用。

  3. 截取序列。找到EMBOSS中的程序extractseq,在Required section项目中,通过设定Regions to extract为1-3000截取大肠杆菌基因组序列的前3000bp。点击运行后,点击outseq,然后ctrl+A选中全部,ctrl+C复制。回到桌面,新建一个TXT文件,修改后缀名为fasta。将刚刚复制的片段粘贴进去,保存名字为coli_part.fasta待用。

    Tips:EMOBSS由于程序太多,寻找起来非常复杂,推荐直接在地址栏键入,如图:

    dizhi.PNG

    地址栏一定不能输错了,更改红色部分为程序名即可

  4. ORF预测。(找到程序getorf,在序列输入框中粘贴上一步截取的前3000bp序列片段),Code to use中选择“Bacterial”,Type of output中选择“Nucleic sequences between START and STOP codons”,其他默认即可。之后点击Run getorf得到ORF的预测结果。

    EMOBOSS_output.PNG

  5. 和NCBI的ORF Finder预测结果进行比较分析。tip:两个的输出结果有所不同,不代表哪一个有错,本就是一个预测,可能由于各个软件的算法以及数据存储结构不同造成结果差异

    附1:ORF Finder预测:

    ORF Finder在您输入的 DNA 序列中搜索ORF。该程序返回每个ORF的范围及其蛋白质翻译。使用 ORF 查找器搜索新测序的 DNA 以查找潜在的蛋白质编码片段,使用新开发的 SMART BLAST 或常规 BLASTP 验证预测的蛋白质。地址:https://www.ncbi.nlm.nih.gov/orffinder/

    tips:ORF Finder所给到的信息更多,但是ORF Finder不支持直接文件导入。ORF Finder最大支持50kb基因长度,大肠杆菌长度约4 70kb,不能直接全复制进去,需要手动处理or用EMBOSS的extractseq剪切,长了会报错,如图

    erro.PNG

    将前面保存的coli_part.fasta里面的全复制进去,运行后,我的结果如下;

    finder_output.PNG

    ​ ORF Finder教程:https://zhuanlan.zhihu.com/p/465101247

    附2:NCBI数据库下载基因组序列:

  • 打开NCBI(http://www.ncbi.nlm.nih.gov/);

  • 选择搜索栏左边选项选择你想要的数据库类型,这里以Nucleotide库为例.

  • 选择send,保存为file,选择fasta格式。

send.PNG

  • 选择保存位置,默认命名为sequence.fasta。由于NCBI服务器在国外,下载速度比较慢,在下载完整sequence时会有比较明显的感知。(下载速度只有10-30kb/s)

download.PNG

NCBI数据库使用方法教程:https://www.51xxziyuan.com/55/5943.html 他说他是最详细的教程

引用及参考:

1.《生物信息学》(李霞,人民卫生出版社),

2.天津医科大学《生物信息学基础》课程,伊现富博士

3.NCBI,百度百科

4.大肠杆菌,百度百科