应用错误收集

我有很多文件，超过一万（甚至更多）。我想从每个文档中提取一些关键字，让我们使用hadoop从每个文档中说出5个关键字。每篇文档都可以讨论一个独特的主题。我目前的方法是使用在Mahout中实现的Latent Dirichlet Allocation（LDA）。但是，由于每个文档都涉及不同的主题，因此提取的主题的数量应该等于文档的数量，这非常大。由于当主题数量变大时LDA变得非常低效，我的方法是将文档随机分组到每个只有100个文档的小组中，然后使用Mahout LDA从每个组中提取100个主题。这种方法有效，但可能效率不高，因为每次我在一小组文档上运行hadoop。有没有人对此有更好的（更有效的）想法？

如何从大量文档中提取关键字？

0 个答案: