我有很多文件,超过一万(甚至更多)。我想从每个文档中提取一些关键字,让我们使用hadoop从每个文档中说出5个关键字。每篇文档都可以讨论一个独特的主题。我目前的方法是使用在Mahout中实现的Latent Dirichlet Allocation(LDA)。但是,由于每个文档都涉及不同的主题,因此提取的主题的数量应该等于文档的数量,这非常大。由于当主题数量变大时LDA变得非常低效,我的方法是将文档随机分组到每个只有100个文档的小组中,然后使用Mahout LDA从每个组中提取100个主题。这种方法有效,但可能效率不高,因为每次我在一小组文档上运行hadoop。有没有人对此有更好的(更有效的)想法?