文字分类&主题建模

时间:2015-06-16 13:27:21

标签: python text-mining text-classification topic-modeling

对于大量文章,我希望获得分配给不同主题和权重的主题模型。在主题内,不同子主题的权重是多少。例如,如果我提供同时属于商业和商业的文章。技术领域,然后程序的输出shuold是这样的: -

  • 0.593业务(0.438 - 市场营销,0.375 - 公司,0.062 - 办公室工作)
  • 0.148技术(0.500技术类型,0.250 - 高技术商业区,0.250 - 科技公司)
  • 0.111社会(0.333 - 组织,0.333 - 社会科技,0.333 - 工党)

什么是可以成功完成这些工作的最佳开源语言处理程序?

3 个答案:

答案 0 :(得分:0)

您可以使用开源NLTK Toolkit进行分类。

答案 1 :(得分:0)

我会试试NLTK,但scikit-learn,即使它的学习曲线比NLTK更陡峭,也许是一个更好的选择。它更具可配置性。

http://scikit-learn.org/stable/documentation.html

答案 2 :(得分:0)

有几个程序要执行此任务的部分,对于我推荐的mallet启动器。请注意,任何主题建模程序会为您提供所需格式的主题,即

 ( 0.438 - Marketing , 0.375 - Companies, 0.062 - Office Work)

但您需要自行分配标签(在此示例中为商家)。 Mallet还为您提供了主题文本的分解(由数字标识,而不是标签)。