三种转录组差异分析方法及区别你会了吗?-腾讯云开发者社区-腾讯云

日期: 栏目:体坛快讯 浏览:6256 评论:1

三种转录组差异分析方法及区别你会了吗?-腾讯云开发者社区-腾讯云

在做项目时,曾有小伙伴对我用edgeR进行差异分析筛选出的具体显著差异基因表示质疑,因为发表的文章清楚的说明某个基因是差异基因,但是我edgeR的分析结果并没有表明。在小伙伴的质疑下,我认真看了下文章,发现文章用的是DEseq2进行差异分析。值得注意的是该小伙伴关注的差异基因是一个离散比较大的基因,此处的离散较大可以理解为假定对照组为5,6,7;实验组则为14,13,3的情况。那为什么这个基因在edgeR分析下不是显著差异基因,然而在DEseq2的分析下是差异基因呢?这应该很大程度源于算法判定显著差异基因的区别。接着,我看了关于DEseq2与edgeR区别的描述,发现「edgeR与Deseq2都是基于负二项分布模型做的,两者处理同一组数据时,相同阈值处理大部分基因是一样的,但是也会有一部分基因会因为离散度不同导致差异不同」,如刚刚示例的基因离散度被DEseq2识别为差异,但是不被edgeR识别,所以两种算法获取的差异基因与数目是存在细微区别的。

小伙伴们可能也会好奇,除了上述的edgeR与DEseq2,不是还有第三种差异分析方法imma吗,它分析的结果与前两种差异分析方法有什么区别?「具体分析时,我们应该从三种差异分析方法中选择何种方法进行分析呢?」

小编觉得,如果不是针对特定的基因去找,其实这三种差异分析方法都可以(虽然目前推DEseq2与edgeR的比较多些)。但是,如果说你要根据固定的基因去选择,你可以尝试一下三种差异分析的方法,看看效果再决定。

在本文中,我们拟通过三个「check上调基因的箱线图」说明三种差异分析方法没有造成上下调差异基因结果相反的情况;通过「Veen图」查看了差异基因在三种差异分析方法间的交集情况,通过「相关性分析」看看不同差异分析方法分析共同差异基因logFC的相关性。接下来就让我们探究一下三种差异分析方法(DEseq2、edgeR与limma)在转录组差异分析的方式与具体流程吧。

今天,我们使用标题为 Single base-pair resolution analysis of binding motif with diffMotif uncovers the oncogenic impact of CTCF mutations in breast cancer 的数据集GSE190114进行探究,数据集的介绍链接如下感兴趣的小伙伴可以点进去看看作者的总体设计。在此,小编对文章进行简单归纳,作者主要通过转录组测序探究了CTCF锌指结构的突变对于乳腺癌的影响,使用的是MCF10A乳腺癌细胞系。

GSE190114数据集的样本分组如下,三个分组三个重复样本,我们重点对前两个分组的重复样本进行差异分析

处理数据的话,作者上传了基因count矩阵,我们就可以直接走基因count矩阵的差异分析流程进行分析,链接见。

以下为基因count矩阵下载链接:感兴趣的小伙伴可以下载试试。0.清控环境,加载包javascript1.读取数据,获得基因表达矩阵以及cpm矩阵javascript2.获取分组信息javascript3.初看两组分析的数据与样本分组分布(箱线图与PCA图)javascript4.1利用edgeR进行差异分析javascript4.2利用DEseq2进行差异分析javascript4.3利用limma做差异分析javascript5.绘制三种差异分析的火山图及拼图javascript6.绘制三种差异分析差异基因的韦恩图javascript7.绘制三种差异分析的相关性散点图看看javascriptjavascriptjavascriptjavascript

以上就是转录组常见的三种差异分析方法以及三种差异分析方法的区别。

「总结:」从韦恩图中可见,三种差异分析的差异基因大部分一样,但是因为判定的标准不同,有些差异基因在某些方法中是差异基因,在某些方法中不是差异基因。相关性分析结果表明,三种差异分析方法中两种差异分析获得的共同差异基因的logFC判定具有非常强的相关性,表明它们的趋势基本完全相同。

感兴趣的小伙伴可以尝试分析一下这个数据集哈。在分析自身课题的转录组结果时,可以试试三种方式去分析,多探究探究自己的数据,看看能否获得自身感兴趣的结果。

评论留言

  1. 访客
    发布于:
    听楼主一席话,省我十本书!http://ykbm1.jkd4whd.cn/

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。