使用有限内存发现长n-gram的算法?

时间:2015-10-05 10:16:45

标签: algorithm

存在用于计算大n-gram的存储器有效算法。我有大量的二进制输入(~1k),并希望发现(使用在线算法)哪些子集比平均值更频繁地出现。我认为这个问题与搜索长n-gram(每个输入相当于一个字符或单词)是同构的,不幸的是创建几个TB级的表来做一个简单的计数是不可能的(这是进入javascript所以一千兆字节会推动它)。我希望有人可以指出我可以调整的一些聪明的算法或想法。

我不需要保留确切的数字,只需观察十分左右的输入是否经常出现在一起。

0 个答案:

没有答案