应用错误收集

我正在尝试构建一个模型，该模型将尝试识别所提供文本的兴趣类别/主题。例如：

从我们精湛的美丽和设计师的纱丽购买新娘婚礼纱丽。获得优惠，优质拼接和免费国际快递。

将解析为顶级类别，如：

时尚或婚礼时尚

为了实现这一点，我使用了Latent Dirichlet分配（LDA），这是一个主题模型，可以根据一组文档中的词频生成主题。

所以我得到了如下文档的主题，但没有找到将它们映射到人类可理解格式的方法

主题＃0（0.500）：0.100 * sare + 0.060 *实习生+ 0.060 *获得+ 0.060 *交易+   0.060 *排气+ 0.060 *设计+ 0.060 *免费+ 0.060 *质量+ 0.060 *商店+ 0.060 *很棒

主题＃1（0.500）：0.063 * sare + 0.063 * beauti + 0.063 * deliveri +   0.063 *针脚+ 0.063 * varieti + 0.063 *婚礼+ 0.062 *新娘+ 0.062 *很棒+ 0.062 *店铺+0.062 * qualiti

我已使用此script来实现上述内容。

所以问题是如何将上面确定的主题映射到像Fashion这样的人类可读类别？

从文本中识别兴趣/主题

0 个答案: