标签: algorithm
存在用于计算大n-gram的存储器有效算法。我有大量的二进制输入(~1k),并希望发现(使用在线算法)哪些子集比平均值更频繁地出现。我认为这个问题与搜索长n-gram(每个输入相当于一个字符或单词)是同构的,不幸的是创建几个TB级的表来做一个简单的计数是不可能的(这是进入javascript所以一千兆字节会推动它)。我希望有人可以指出我可以调整的一些聪明的算法或想法。
我不需要保留确切的数字,只需观察十分左右的输入是否经常出现在一起。