所以我正在查看一些基因表达数据。我汇集了来自12个不同CSV文件的数据,最终数据格式如下:
lib gene_id expression 1 a 0 1 a_reverse 10 1 b 15 1 b_reverse 0.3 2 a 10 2 a_reverse 0 2 b 0.3 2 b_reverse 15 3 a 8 3 a_reverse 15 3 b 0.3 3 b_reverse 0.5 ...
你明白了。 lib
有12个库,每个库包含5000个基因和5000个反向基因的表达水平。
现在,我想要相互创建这些表达式值的散点图。如果它们有不同的变量,那么为了绘制lib 2与lib 1的基因,我只需做类似的事情:
plot(library1$expression, library2$expression)
但是,因为expression
在技术上与我的数据框中的变量相同,所以我不确定如何继续。我无法将每个CSV作为单独的变量加载,因为我希望在处理后将我的数据导出为1个大型CSV文件。为了在ggplot2
制作我的情节,我想它看起来像这样:
ggplot(df) + geom_point(aes(df[lib==1]$expression, df[lib==2]$expression))
然而,我知道这是关闭的,因为当我尝试它时给了我一个错误。这样做的正确语法是什么?此外,如果可能的话,我也希望能够为每个库的所有基因创建一对配对图(对象是ggpairs)。我该怎么做呢?