Question

我有两个因素向量，并怀疑他们携带相同的信息直到重新标记。我怎样才能知道这是否正确？

我的问题是两个向量都很长（200,000个条目），有很多级别（4,000个）。有些级别非常频繁，但有一条长尾巴＃34;只出现一次的等级。

这是一个可重复的示例（抱歉，我无法找到一种方法来使其紧凑并仍然显示我的数据的属性）：

foo <- structure(c(3213L, 428L, 104L, 59L, 23L, 17L, 15L, 9L, 5L, 6L, 
1L, 5L, 3L, 1L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L), .Dim = 69L, .Dimnames = structure(list(
    c("1", "2", "3", "4", "5", "6", "7", "8", "9", "10", "11", 
    "12", "13", "14", "15", "16", "23", "33", "83", "205", "246", 
    "255", "319", "374", "379", "389", "552", "566", "595", "686", 
    "750", "846", "965", "999", "1006", "1254", "1514", "1535", 
    "1605", "1687", "1744", "1792", "1937", "1946", "2166", "2198", 
    "2206", "2420", "2503", "2736", "2965", "2986", "3036", "3273", 
    "3734", "4026", "4073", "4279", "5038", "5040", "5185", "5607", 
    "6298", "6609", "6930", "15392", "21083", "22933", "29357"
    )), .Names = ""), class = "table")
bar <- as.numeric(rep(names(foo),times=foo))
factor.1 <- as.factor(rep(paste0("a",sprintf("%04i",1:length(bar))),times=bar))
set.seed(1)
factor.2 <- as.factor(sample(gsub("a","b",unique(factor.1)),length(unique(factor.1)))[
  as.numeric(factor.1)])

在此练习之后，factor.1和factor.2只是对方的重新标记。那么，我们怎样才能知道这是否适用于新的载体呢？

不工作的事情：

内部整数编码不需要相同，因此只需检查cor(as.numeric(factor.1),as.numeric(factor.2))==1是否无效。
我尝试检查factor.1的每个因子级别是否恰好对应factor.2的一个因子级别，反之亦然。不幸的是，这需要太长时间，大约几个小时：
```
foo <- by(factor.1,factor.2,FUN=function(zz)length(unique(zz)))
bar <- by(factor.2,factor.1,FUN=function(zz)length(unique(zz)))
all(foo) & all(bar)
```
如果我们可以使用factor.1作为预测器完全适合factor.2多项模型，反之亦然，两者都带有相同的信息。不幸的是，nnet::multinom(factor.1~factor.2)产生了可怕的＆＃34;无法分配大小为XX的矢量＆＃34;错误。 randomForest::randomForest()，至少会给我们一个概率性答案，无法处理超过53个级别的因素。
我们可以运行table(factor.1,factor.2)并检查每一行是否只有一个非零条目。这又耗尽了内存。

Answer 1

第一个函数计算其参数的唯一元素的数量，如果每个y级别都有一个x级别，则第二个函数返回TRUE。如果是因为factor.1和factor.2，如果它们使用相同数量的级别，则一个是另一个的重新标记。使用给定的数据，它会立即返回，因此看起来非常快。最后一行是您的一个想法的更快版本。使用其中任何一个。

cnt <- function(x) length(unique(x))
all_one <- function(x, y) all(tapply(unclass(x), y, cnt) == 1)

# solution 1
all_one(factor.1, factor.2) && cnt(factor.1) == cnt(factor.2)

# solution 2
all_one(factor.1, factor.2) && all_one(factor.2, factor.1)

如何快速找出两个（大）因子是否相互重复？

1 个答案: