为什么数据框维度中缺少可见列?

时间:2016-04-08 01:52:15

标签: r bioinformatics

我有一个很长的数据框,名为df.alt.alleles,看起来像这样(约900万行):

                    AC
1:123456789_G/C     5
1:139406018_A/T     21
1:156902649_C/G     47
1:189027493_A/G     23

当我发现课程时,我被告知它是一个数据帧:

class(df.alt.alleles)
##"data.frame"

当我查询尺寸时,我被告知只有一列虽然在查看时似乎有两列。

dim(df.alt.alleles)
##

我想查找_的所有实例并删除它以及该列中的所有内容以生成一个看起来像这样的新数据框(但是对于所有900万行):

                    AC
1:123456789         5
1:139406018         21
1:156902649         47
1:189027493         23

我尝试过使用:

sub("_\\S*", "", "df.alt.alleles")

正如此处所示:Remove everything after a string in a data frame column with missing values

返回一个包含" AC"中所有数字的字符串。列。

注意:对不起,如果这是一个可怕的问题,但我是一个完整的R新手,并搜索高低,以寻找一些似乎非常基本的解释。如果问题格式不正,请道歉我对此完全是新的,我会接受任何建议!

1 个答案:

答案 0 :(得分:1)

在这里,您可以看到问题和纠正,我相信:

df
                AC
1:123456789_G/C  5
1:139406018_A/T 21
1:156902649_C/G 47
1:189027493_A/G 23

df$somename <- row.names(df)
df
                AC        somename
1:123456789_G/C  5 1:123456789_G/C
1:139406018_A/T 21 1:139406018_A/T
1:156902649_C/G 47 1:156902649_C/G
1:189027493_A/G 23 1:189027493_A/G

row.names(df) <- NULL
df
  AC        somename
1  5 1:123456789_G/C
2 21 1:139406018_A/T
3 47 1:156902649_C/G
4 23 1:189027493_A/G