标签: nlp keyword extraction
许多算法都是从单个文档中提取的。但我想知道如何从一组文档中提取关键词(或特征词),它们可以代表这组文档的特征?一次分析所有文档进行分析可能过于昂贵。是否有一些算法可以一次处理一个文档然后合并/计算结果以生成这组文档的关键字?
答案 0 :(得分:0)
一种方法是提取关键字(几个商业API)及其tf / idf分数,进行一些清理和规范化。您需要进行一些测试,并确定分数的可接受的最小阈值,低于该分数,您将丢弃它们不相关的单词b / c。