从文本中识别兴趣/主题

时间:2016-10-01 12:55:42

标签: python nltk lda gensim nltk-trainer

我正在尝试构建一个模型,该模型将尝试识别所提供文本的兴趣类别/主题。例如:

  

从我们精湛的美丽和设计师的纱丽购买新娘婚礼纱丽。获得优惠,优质拼接和   免费国际快递。

将解析为顶级类别,如:

  

时尚或婚礼时尚

为了实现这一点,我使用了Latent Dirichlet分配(LDA),这是一个主题模型,可以根据一组文档中的词频生成主题。

所以我得到了如下文档的主题,但没有找到将它们映射到人类可理解格式的方法

  

主题#0(0.500):0.100 * sare + 0.060 *实习生+ 0.060 *获得+ 0.060 *交易+   0.060 *排气+ 0.060 *设计+ 0.060 *免费+ 0.060 *质量+ 0.060 *商店+ 0.060 *很棒

     

主题#1(0.500):0.063 * sare + 0.063 * beauti + 0.063 * deliveri +   0.063 *针脚+ 0.063 * varieti + 0.063 *婚礼+ 0.062 *新娘+ 0.062 *很棒+ 0.062 *店铺+0.062 * qualiti

我已使用此script来实现上述内容。

所以问题是如何将上面确定的主题映射到像Fashion这样的人类可读类别?

0 个答案:

没有答案