使用每个行向量R

时间:2018-04-03 14:39:12

标签: r dataframe subset recommenderlab

您好我从csv中读取了一些数据,这些数据以二进制形式列出:

   1 2 3 4...N
1  0 1 0 1...1
2  1 1 0 1...1
3  0 0 0 0...0
4  1 0 1 1...1
.  1 1 1 0...1
.  1 0 0 0...1
N  0 0 1 1...0

screenshot of str(data)

我想取这个数据的一个子集,其中行向量的总和大于数字10或x。第一列是客户ID的占位符列,因此需要将其排除在外。你有什么建议我可以这样做吗?

我一直在尝试各种各样的事情,例如df=subset(),但我无法正确理解语法。

提前致谢。

1 个答案:

答案 0 :(得分:1)

我们可以使用rowSums

执行此操作
df1[rowSums(df1) > 10, , drop = FALSE]
#  V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V20
#7  0  0  0  1  0  0  1  1  0   1   1   1   1   1   0   0   0   1   1   1
#9  1  1  1  1  0  0  1  0  0   0   0   1   1   0   0   1   1   1   0   1

更新

在OP的数据集中,第一列“X”不是二进制且具有更大的数字。因此,当我们包含该变量时,rowSums将大于10.它是索引ID,不能在计算中使用。因此,通过在rowSums中删除它,它将很好地分组

df1[rowSums(df1[-1])> 10,]

数据

set.seed(24)
df1 <- as.data.frame(matrix(sample(0:1, 10* 20, replace = TRUE), ncol = 20))