如何使用MISO进行可变剪切的分析
如何使用MISO进行可变剪切的分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。
创新互联建站专注为客户提供全方位的互联网综合服务,包含不限于成都做网站、成都网站建设、成都外贸网站建设、元宝山网络推广、小程序设计、元宝山网络营销、元宝山企业策划、元宝山品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等,从售前售中售后,我们都将竭诚为您服务,您的肯定,是我们最大的嘉奖;创新互联建站为所有大学生创业者提供元宝山建站搭建服务,24小时服务热线:18982081108,官方网址:www.cdcxhl.com
MISO是一款经典的可变剪切分析工具,和rmats类似,该软件也支持对可变剪切事件进行定量和差异分析。
这个软件支持exon和transcript两种水平的可变剪切分析,在rmats的文章中,我们也提到了rmats是从exon水平给出的可变剪切结果,因为二代测序读长短的特点,无法有效得到转录本全长,从exon水平得到的结果更加的准确,而且阳性结果更容易通过RT-PCR验证出来,但是无法详细的探究某个基因不同isoform之间的变化;transcript水平直接给出不同isoform间的定量和差异,能有效的探究基因不同isofrm的变化情况,但是结果准确性较差。
该软件是一个python包,直接通过pip
就可以安装,分析的pipeline如下
1. 对参考基因组的GFF文件建索引
对于transcript水平的分析而言,只需要提供转录本的GFF文件,可以从Ensembl等数据库下载参考基因组的gtf文件,然后自己转换成GFF3格式;对于exon水平而言,需要提供已知的可变剪切事件的GFF格式文件,示意如下
chr1 SE gene 4772649 4775821 . - . ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-;Name=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:- chr1 SE mRNA 4772649 4775821 . - . ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:- chr1 SE mRNA 4772649 4775821 . - . ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:- chr1 SE exon 4775654 4775821 . - . ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A.up;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A chr1 SE exon 4774032 4774186 . - . ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A.se;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A chr1 SE exon 4772649 4772814 . - . ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A.dn;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.A chr1 SE exon 4775654 4775821 . - . ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B.up;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B chr1 SE exon 4772649 4772814 . - . ID=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B.dn;Parent=chr1:4775654:4775821:-@chr1:4774032:4774186:-@chr1:4772649:4772814:-.B
第二列表示可变剪切的类型,以外显子跳跃为例,ID的格式如下
chr1:4775654:4775821:-@chr1:4774032:4774186:@chr1:4772649:4772814
包含了用@
符号隔开的3个外显子,中间的exon的跳过的外显子,第一个为上游的外显子,第二个为下游的外显子,对应如下示意图中的3个exon
transcript水平的GFF文件从数据库中下载即可,而exon水平的GFF文件是需要自己先识别可变剪切的不同isoform,然后整理得到的,对于人和小鼠等常见物种,官网提供了exon水平的GFF文件,链接如下
https://miso.readthedocs.io/en/fastmiso/annotation.html
准备好GFF文件之后,就可以建立索引了,命令如下
index_gff --index ensGene.gff3 index_db
index_db
为索引保存的目录。
2. 运行miso
运行miso需要第一步建好的索引以及样本对应的bam文件,该bam文件必须是经过排序处理的,而且有对应的bai
索引,对于双端数据,用法如下
miso --run index_db \ algin.sorted.bam \ --output-dir out_dir \ --read-len 150 \ --paired-end 250 15 \ --settings-filename miso_settings.txt
read-len
是reads的平均长度,paired-end
代表插入片段长度的平均值和方差,miso_settings.txt
是配置文件,内容如下
[data] filter_results = True min_event_reads = 20 strand = fr-unstranded [sampler] burn_in = 500 lag = 10 num_iters = 5000 num_processors = 4
配置文件中的参数很多,就不一一解释了,每个参数的意义请参考官方文档。
通过上述方式得到的结果可以直接用于后续的差异分析,但是这个结果不利于我们查看,所以官方提供了汇总程序,用法如下
summarize_miso \ --summarize-samples \ raw_out/ \ summary_out1
3. 样本间的差异分析
进行样本间差异分析的代码如下
compare_miso --compare-samples control case/ comparisons/
在输出目录,会生成一个后缀为bf
的文件。
4. 对结果进行过滤
用法如下
filter_events \ --filter case_vs_control.miso_bf \ --num-inc 1 \ --num-exc 1 \ --num-sum-inc-exc 10 \ --delta-psi 0.20 \ --bayes-factor 10 \ --output-dir filter_dir
5. 可视化
用法如下
sashimi_plot \ --plot-event "chr1:7778:7924:-@chr1:7096:7605:-@chr1:6717:6918:-" \ index_db/ \ sashimi_plot_settings.txt \ --output-dir out_dir
sashimi_plot_settings.txt是配置文件,其中设置了样本的bam文件和可变剪切的输出结果,示例如下
[data] # directory where BAM files are bam_prefix = ./test-data/bam-data/ # directory where MISO output is miso_prefix = ./test-data/miso-data/ bam_files = [ "heartWT1.sorted.bam", "heartWT2.sorted.bam", "heartKOa.sorted.bam", "heartKOb.sorted.bam"] miso_files = [ "heartWT1", "heartWT2", "heartKOa", "heartKOb"] [plotting] # Dimensions of figure to be plotted (in inches) fig_width = 7 fig_height = 5 # Factor to scale down introns and exons by intron_scale = 30 exon_scale = 4 # Whether to use a log scale or not when plotting logged = False font_size = 6 # Max y-axis ymax = 150 # Whether to plot posterior distributions inferred by MISO show_posteriors = True # Whether to show posterior distributions as bar summaries bar_posteriors = False # Whether to plot the number of reads in each junction number_junctions = True resolution = .5 posterior_bins = 40 gene_posterior_ratio = 5 # List of colors for read denisites of each sample colors = [ "#CC0011", "#CC0011", "#FF8800", "#FF8800"] # Number of mapped reads in each sample # (Used to normalize the read density for RPKM calculation) coverages = [ 6830944, 14039751, 4449737, 6720151] # Bar color for Bayes factor distribution # plots (--plot-bf-dist) # Paint them blue bar_color = "b" # Bayes factors thresholds to use for --plot-bf-dist bf_thresholds = [0, 1, 2, 5, 10, 20]
最终会产生如下所示的结果
这种图称之为sashimi plot , 是一种专用于可变剪切可视化的图表,上述示意图表示的是一个外显子跳跃事件在不同样本中的表达情况,左下方是GFF文件中共的exon结构,左上方是每个样本中比对上exon的reads的可视化,采用了RPKM表示,不同剪切方式用曲线链接,曲线上标记的是比对上该区域的reads数目,不同分组的样本用不同颜色表示,右侧的图片是样本中对应的可变剪切的表达量值。
从这种图中,可以直观的看到两组样本间的可变剪切表达有无差异,上图中heartWT
组中的表达量高于heartKO
组。
实际分析时,由于需要手动整理可变剪切isofrom对应的gff文件,所以使用的难度较大,但是其提供的可视化功能是非常值得借鉴的。
看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注创新互联行业资讯频道,感谢您对创新互联的支持。
分享名称:如何使用MISO进行可变剪切的分析
新闻来源:http://cdiso.cn/article/jspjgo.html