在N个文本块中查找最常出现的n字对(skip-gram)

时间:2017-10-11 15:21:34

标签: algorithm text-mining n-gram

给定:N个文本块(每个块内的唯一字)。对于任意数n和k,如何找到k个最常见的n字对出现在N个文本块中?

对于n = 1,这是微不足道的。我们可以生成term-document matrix(TDM)并按频率降序排序。对于n = 2,我们可以使用TDM生成共生矩阵C = TDM * TDM',然后搜索k个最大值。矩阵中的索引告诉我们哪个词对最常见。

如何将这个概念概括为任意n?如何优化计算时间?是否有现有算法?

我很感谢任何建议。

注意:我使用的软件是MATLAB。

0 个答案:

没有答案