使用seq_along()来处理空案例

时间:2016-12-30 20:27:59

标签: r seq is-empty

我读到使用seq_along()可以更好地处理空案例,但这个概念在我看来并不那么清楚。

例如,我有这个数据框:

df
            a            b          c          d
1   1.2767671  0.133558438  1.5582137  0.6049921
2  -1.2133819 -0.595845408 -0.9492494 -0.9633872
3   0.4512179  0.425949910  0.1529301 -0.3012190
4   1.4945791  0.211932487 -1.2051334  0.1218442
5   2.0102918  0.135363711  0.2808456  1.1293810
6   1.0827021  0.290615747  2.5339719 -0.3265962
7  -0.1107592 -2.762735937 -0.2428827 -0.3340126
8   0.3439831  0.323193841  0.9623515 -0.1099747
9   0.3794022 -1.306189542  0.6185657  0.5889456
10  1.2966537 -0.004927108 -1.3796625 -1.1577800

考虑这三个不同的代码片段:

# Case 1
for (i in 1:ncol(df)) {
    print(median(df[[i]]))
}

# Case 2
for (i in seq_along(df)) {
    print(median(df[[i]]))
}

# Case 3
for(i in df) print(median(i))

当存在完整data.frame或存在空data.frame时,这些不同程序之间有什么区别?

1 个答案:

答案 0 :(得分:2)

df <- data.frame()的条件下,我们有:

案例1 成为......的牺牲品

  

.subset2(x,i,exact = exact)中的错误:下标越界

案例2和3 已触发。

实质上,案例1 中的错误归因于ncol(df)0。这导致序列1:ncol(df)1:0,从而创建向量c(1,0)。在这种情况下,for循环尝试访问向量1的第一个元素,该向量尝试访问第1列存在。因此,发现该子集超出界限。

同时,在案例2和3 中,for循环永远不会被执行,因为在它们各自的集合中没有要处理的元素,因为向量为空 。原则上,这意味着它们的长度为0

由于这个问题具体涉及seq_along()发生了什么,让我们通过构建一个完整的向量seq_along来看一个传统的a例子并看到结果:

set.seed(111)
a <- runif(5)
seq_along(a)
#[1] 1 2 3 4 5

实质上,对于向量a的每个元素,都有一个由seq_along创建的相应索引来访问。

如果我们现在将seq_along应用于上述案例中的空df,我们会得到:

seq_along(df)
# integer(0)

因此,创建的是零长度向量。它很难沿零长度向量移动。

Ergo,案例1 空案例的保护不力

现在,在传统的假设下,就是data.frame中有一些数据,对于任何类型的开发者而言,这是一个非常错误的假设...

set.seed(1234)
df <- data.frame(matrix(rnorm(40), 4))

所有三个案例都将按预期运作。也就是说,您会收到data.frame每列的中位数。

[1] -0.5555419
[1] -0.4941011
[1] -0.4656169
[1] -0.605349