正则表达式和R中位数的计算

时间:2015-12-12 18:52:42

标签: regex r

我有一个表达矩阵,即一个矩阵,其中包含不同人类样本中某些基因的表达水平,并且有一些样本是重复的,因此我需要在这些重复中组合表达并计算中位数。 我将样本的名称作为行,并且在每列中我都有基因的表达。 (我有大约200,000个基因,所以~200,000个列)。 第一列看起来像这样:

Adipocyte - breast, donor1
Adipocyte - breast, donor2
Adipocyte - omental, donor1
Adipocyte - omental, donor2
Adipocyte - omental, donor3
Alveolar Epithelial Cells, donor1
Alveolar Epithelial Cells, donor2
Amniotic Epithelial Cells, donor1
Amniotic Epithelial Cells, donor3

其余列对应于数字(不同基因的表达)。

所以我想我需要先编写一个正则表达式来抓取那些相等的直到昏迷的行,这样才能捕获相同细胞类型的不同供体,然后计算每个基因表达的中位数。 / p>

关于如何做到这一点的任何想法?

1 个答案:

答案 0 :(得分:2)

这是一个不太优雅的解决方案(主要是因为字符串拆分功能“strsplit”)但它不需要任何额外的包,并且更容易理解,因为R用户更熟悉语法(之前的解决方案是使用包我相信,哈德利威克姆写的是使用略有不同语法的人。)

pictureBox1.Image.Save(@"" + Application.StartupPath + "\\Image" + "".ToString() + @"\" + @"personeli_" + textBox4.Text + ".jpg");