对于大量文章,我希望获得分配给不同主题和权重的主题模型。在主题内,不同子主题的权重是多少。例如,如果我提供同时属于商业和商业的文章。技术领域,然后程序的输出shuold是这样的: -
什么是可以成功完成这些工作的最佳开源语言处理程序?
答案 0 :(得分:0)
您可以使用开源NLTK Toolkit进行分类。
答案 1 :(得分:0)
我会试试NLTK,但scikit-learn,即使它的学习曲线比NLTK更陡峭,也许是一个更好的选择。它更具可配置性。
答案 2 :(得分:0)
有几个程序要执行此任务的部分,对于我推荐的mallet启动器。请注意,任何主题建模程序会为您提供所需格式的主题,即
( 0.438 - Marketing , 0.375 - Companies, 0.062 - Office Work)
但您需要自行分配标签(在此示例中为商家)。 Mallet还为您提供了主题文本的分解(由数字标识,而不是标签)。