Promoter预测
Promoter预测(基于Promoter2.0 and Galaxy PhagePromoter)
Promoter(启动子)简介:
启动子是一段位于转录起始位点 5’ 端上游区的 DNA 序列,能活化 RNA 聚合酶,使之与模板
DNA 准确地结合并具有转录起始的特异性。转录起始位点(Transcription Start Site,TSS)是指与新
生 RNA 链第一个核苷酸相对应 DNA 链上的碱基,研究证实通常为一个嘌呤。常把起点前面、即
5’ 端的序列称为上游序列(upstream),而把其后面、即 3’ 端的序列称为下游序列(downstream)。
在描述碱基的位置时,一般用数字表示,起点为 +1, 下游方向依次为 +2,+3,⋯⋯,上游方向依次
为-1,-2,-3⋯⋯序列的书写方向通常是固定的,使转录从左(上游)向右(下游)进行,mRNA 同样
按照 5’→3’ 方向书写。[1]
维基百科:启动子
医学百科:启动子
promoter2.0介绍:
从DNA序列预测真核PolII启动子的新方法利用类似于神经网络和遗传算法的元素组合来识别一组具有可变分离的离散子模式作为一种模式:启动子。神经网络使用一小段DNA序列窗口以及其他神经网络的输出作为输入。通过使用遗传算法,神经网络中的权重被优化,以最大限度地区分启动子和非启动子。[2]
文献介绍:Promoter2.0: for the recognition of PolII promoter sequences可能打不开
DIO:10.1093/bioinformatics/15.5.356 国内网络可用Scihub下载
Galaxy PhagePromoter介绍:
该工具使用机器学习算法来预测在噬菌体中的启动子的位置。它能够同时识别噬菌体和细菌的启动子序列。特别的是,该工具是以galaxy为载体的网页工具。galaxy可以本地化然后针对自己的需求进行任意的改装。但是该工具使用会略微复杂,需要在get_data—upload file模块中先上传文件,然后在Phage Annotation—Phage Promoter模块中选择刚才上传的文件对数据进行预测。[3] [4]
注意:该工具似乎一次只可以分析一条fasta文件(python中的biopython脚本使用的是SearchIO.read而不是parse导致的),一次分析多条序列会导致错误出现。
文献介绍:Predicting promoters in phage genomes using PhagePromoter
DIO:10.1093/bioinformatics/btz580
Promoter2.0预测:
以预测人体CD9基因为例
-
获取序列。打开NCBI主页(http://www.ncbi.nlm.nih.gov/),在核酸(Nucleotide)数据库查询人类CD9抗原基因(AY422198),将其序列以FASTA格式保存到本地计算机上,保存为CD9.fasta;
-
进入promoter2.0网站(https://services.healthtech.dtu.dk/service.php?Promoter-2.0),导入fasta文件;
-
运行等待一小会 ,查看结果
比Galaxy快多了 -
结果里面前面为所有导入的序列(tip:不勾选 full output 就没有),后面为预测结果。
-
输出格式:
-
-
输出结果:
附:推荐一个生信工具聚合网站LabTools
LabTools是一个网站,用于收集我们在实验室日常工作中所需的最有用的工具。Promoter2.0可以在里面内嵌启动。网址:(http://www.labtools.us/)
Galaxy Galaxy PhagePromoter预测:
以预测大肠杆菌噬菌体T4为例
-
在NCBI(https://www.ncbi.nlm.nih.gov/) 下载Mutant Escherichia phage T4 clone T4基因(Nucleotide),保存为T4.fasta;
-
打开Galaxy Galaxy PhagePromoter(https://galaxy.bio.di.uminho.pt/)
这个不是galaxy的官方主站,是一个基于Docker搭建的,但是我看了Galaxy主站没有Phage promoter(无奈脸 -
在左边搜索Phage promoter,然后导入fasta文件,配置如图,然后运行;有一说一这个Galaxy就是比EMBOSS合理有搜索栏
tip:具体配置按下图,导入时注意不可多次导入同一文件,会报错。 -
点击数据上面的刷新,等待数据从黄色变成绿色;数据的颜色:灰色代表没有运行;黄色代表正在运行;绿色代表运行完成;红色代表运行失败
-
点击小眼睛查看数据;
Galaxy服务器运行是真的卡,要等待很久,尤其是它的图形界面,如果搭建到本地应该会好点
-
结果展示:
-
附:Galaxy介绍:
Galaxy Project 是由 NSF, NHGRI, The Huck Institutes of the Life Sciences, The Institute for CyberScience at Penn State, and Johns Hopkins University 提供支持,其团队是宾夕法尼亚州比较基因组学和生物信息学中心、约翰·霍普金斯大学生物系以及俄勒冈州健康与科学大学的计算生物学计划的一部分,而 Galaxy 正是由这个团队开发的,并得到了社区的贡献。Galaxy Project 的第一个初始版本发布于 15 年前,也就是2005年9月16日。Galaxy 有多种可用方式,尽管大多数 Galaxy 安装都是私有的,但许多团体都以多种不同形式支持 Galaxy 实例,包括可公开访问的服务器,可以轻松地在研究和商业云,容器和虚拟机上启动的 Galaxy 实例。
Galaxy Project 是一个跨越全方位的生物医学开源项目,除了 galaxy 本身,还有 training-material,tools-iuc,planemo 等一些优秀的开源项目,这些项目都是基于 Github 平台进行开源的,所有人都可以参与并提交 PR。
Galaxy 的主站点位于 https://usegalaxy.org,自 2007 年以来,该网站已开放,任何人都可以免费分析其数据。该站点提供了大量的 CPU 和磁盘空间,从而可以分析大型数据集。该站点每月支持成千上万的用户和成千上万的工作。该 Galaxy 实例是在国家科学基金会(National Science Foundation)的支持下,利用了得克萨斯州高级计算中心(Texas Advanced Computing Center (TACC) )的 CyVerse 项目慷慨提供的基础架构。
更加详细介绍:(https://www.cnblogs.com/shenweiyan/p/15648106.html)
参考资料:
[1] 伊优富.启动子分析.天津医科大学生物信息学(课程).天津:天津医科大学
[2] Knudsen S. Promoter2.0: for the recognition of PolII promoter sequences. Bioinformatics. 1999 May;15(5):356-61. doi: 10.1093/bioinformatics/15.5.356. PMID: 10366655.
[3] 分子生物学. CSDN. https://blog.csdn.net/qq_29300341/article/details/80583753
[4] Sampaio M, Rocha M, Oliveira H, Dias O. Predicting promoters in phage genomes using PhagePromoter. Bioinformatics. 2019 Dec 15;35(24):5301-5302. doi: 10.1093/bioinformatics/btz580. PMID: 31359029.
所有需要用到的材料:
奶牛快传:https://cowtransfer.com/s/f33c426aaa384c (下载后用电脑解压)
title: Promoter预测 # 文章名称
date: 2022-10-23 02:24:00 # 文章发布日期
updated: 2022-10-23 02:24:00# 文章更新日期
copyright_author: Becomingw # 作者覆写
copyright_url: https://bolog.becomingw.cn/2022/10/23/Promoter预测/ # 原文链接覆写
license: # 许可协议名称覆写
license_url: # 许可协议链接覆写