有没有办法预测使用公式在model.matrix中有多少列,而不必实例化一个model.matrix?
我正在尝试优化构建sparse.model.matrix的代码:
构造稀疏mm的内存分配在此函数中效率低下。因为它不知道末尾矩阵中将有多少列,所以它不能为大矩阵分配1个单独的内存。相反,它将循环遍历公式中的项,并分配许多较小的矩阵。在for循环的每次迭代期间,它还会将矩阵组合在一起以增大大输出矩阵,这会产生如此多的内存分配,并且对于大数据来说真的很慢。
如果有办法计算最终结果需要多少列,我们可以预先分配矩阵并使sparse.model.matrix更有效率。
我面临的挑战是我不知道如何计算交互术语需要多少列,特别是如果形式为a:b:c的交互。此外,我没有对比经验,因此不知道这对所需列数的影响
答案 0 :(得分:0)
这是一个小例子:
> set.seed(100)
> col_x1 = as.factor(sample(LETTERS[1:5], 10, replace = TRUE))
> col_x2 = as.factor(sample(LETTERS[1:10], 10, replace = TRUE))
> col_x3 = as.factor(sample(LETTERS[1:2], 10, replace = TRUE))
> df <- data.frame(X1 = col_x1, X2 = col_x2, X3 = col_x3)
> df
X1 X2 X3
1 B G B
2 B I B
3 C C B
4 A D B
5 C H A
6 C G A
7 E C B
8 B D B
9 C D B
10 A G A
> str(df)
'data.frame': 10 obs. of 3 variables:
$ X1: Factor w/ 4 levels "A","B","C","E": 2 2 3 1 3 3 4 2 3 1
$ X2: Factor w/ 5 levels "C","D","G","H",..: 3 5 1 2 4 3 1 2 2 3
$ X3: Factor w/ 2 levels "A","B": 2 2 2 2 1 1 2 2 2 1
> df_model_matrix <- model.matrix(~., df)
> dim(df_model_matrix)
[1] 10 9
> df_model_matrix <- model.matrix(~ X1 + X2 + X3 + X1*X2 + X2*X3 + X3*X1, df)
> dim(df_model_matrix)
[1] 10 28
> df_model_matrix <- model.matrix(~ X1 + X2 + X3 + X1*X2 + X2*X3 + X3*X1 + X1*X2*X3, df)
> dim(df_model_matrix)
[1] 10 40
在这种情况下,您正在寻找的公式是:
如果你以非常特殊的方式使用model.matrix(提供对比,抑制拦截等),那么你需要相应地修改它。