标签: string algorithm text analytics document
我正在尝试找到一种算法,该算法可以向我显示文本中最常用短语的顶部列表(包含1-2-3-4个单词或更多单词的短语) 我尝试了很多方法,例如后缀数组,哈希映射,将单词传输到哈希整数值等等,但这总是给我带来O(n ^ 2)的复杂性。
对此解决方案或下限证明有何想法?