应用错误收集

给定：N个文本块（每个块内的唯一字）。对于任意数n和k，如何找到k个最常见的n字对出现在N个文本块中？

对于n = 1，这是微不足道的。我们可以生成term-document matrix（TDM）并按频率降序排序。对于n = 2，我们可以使用TDM生成共生矩阵C = TDM * TDM'，然后搜索k个最大值。矩阵中的索引告诉我们哪个词对最常见。

如何将这个概念概括为任意n？如何优化计算时间？是否有现有算法？

我很感谢任何建议。

注意：我使用的软件是MATLAB。