标签: algorithm text-mining n-gram
给定:N个文本块(每个块内的唯一字)。对于任意数n和k,如何找到k个最常见的n字对出现在N个文本块中?
对于n = 1,这是微不足道的。我们可以生成term-document matrix(TDM)并按频率降序排序。对于n = 2,我们可以使用TDM生成共生矩阵C = TDM * TDM',然后搜索k个最大值。矩阵中的索引告诉我们哪个词对最常见。
如何将这个概念概括为任意n?如何优化计算时间?是否有现有算法?
我很感谢任何建议。
注意:我使用的软件是MATLAB。