Question

我有一个数据框，我想要使用与某个名称匹配的列来转换所有列（例如，记录日志或其他内容）。所以在下面的例子中，我想要记录X.1和X.2，但不是Y或Z.1。

df <- data.frame(
  Y = sample(0:1, 10, replace = TRUE),
  X.1 = sample(1:10),
  X.2 = sample(1:10),
  Z.1 = sample(151:160)
)

# option 1, won't work for dozens of fields
df$X.1 <- log(df$X.1)
df$X.2 <- log(df$X.2)

当数据帧是几个gigabtyes时，有没有一种好的，有效的方法呢？

Answer 1

对于将返回data.frame的函数：

cols <- c("X.1","X.2")
df[cols] <- log(df[cols])

否则，您需要使用lapply或循环遍历列。这些解决方案将比上述解决方案慢，因此只有在必要时才使用它们。

df[cols] <- lapply(df[cols], function(x) c(NA,diff(x)))
for(col in cols) {
  df[col] <- c(NA,diff(df[col]))
}

Answer 2

vars <- c("X.1", "X.2")

df[vars] <- lapply(df[vars], log)

Answer 3

df <- data.frame(
Y = sample(0:1, 10, replace = TRUE),
X.1 = sample(1:10),
X.2 = sample(1:10),
Z.1 = sample(151:160)
)
df

假设您知道那些需要在实际数据帧中进行转换的变量（2和3指的是df中的第2和第3个变量，即X.1和X.2）

df2=log10(df[c(2:3)])
df2

如果变量是数据帧中的一部分，你可以选择它们，如第1，第3，第6，第8到第10和第13中的c（1,3,6,8：10,13）。这只适用于数值变量

有效地转换数据帧的多个列

3 个答案: