标签: algorithm nlp text-extraction
我想知道是否有一种有效的算法可以在某个语言语料库中提取最频繁的重复短语,单词和单词片段,并将其编码为缩短的唯一键,例如"哦,我的上帝> OMG"有效的手动输入。
键必须是唯一的,以便在运行时进行扩展,例如在Mac Os文本扩展功能中。
这样的事情是否有学术用语?