我想从RNAseq下载fastq原始文件以获取基因表达值。但是GEO只提供.bed.gz和.wig.gz格式。我该怎么做才能获得RPKM值?非常感谢你!
答案 0 :(得分:0)
为了计算RPKM,您需要(映射)BAM / SAM或甚至CRAM文件中包含的原始读取。 Wiggle,BED及其衍生产品(如bigWiggle)是仅包含覆盖范围(主要用于绘图)的压缩版本,即它们丢失了计数所需的读取信息,因此计算了RPKM(或FPKM / TPM)。
标准方法是从bam文件开始,提取感兴趣区域的读取计数并计算RPKM等。有许多管道,例如this。
如果Bam文件不可用,GEO通常至少具有原始fastq文件(或可以转换为fastq的sra文件)作为映射的基础以获取bam文件。另外看看ArrayExpress,他们可以拥有该项目的原始文件,因为它正在镜像GEO。
也许作为一个警告,如果你打算进行差异表达式分析,你需要从原始计数,而不是RPKM值。