我正在尝试构建一个模型,该模型将尝试识别所提供文本的兴趣类别/主题。例如:
从我们精湛的美丽和设计师的纱丽购买新娘婚礼纱丽。获得优惠,优质拼接和 免费国际快递。
将解析为顶级类别,如:
时尚或婚礼时尚
为了实现这一点,我使用了Latent Dirichlet分配(LDA),这是一个主题模型,可以根据一组文档中的词频生成主题。
所以我得到了如下文档的主题,但没有找到将它们映射到人类可理解格式的方法
主题#0(0.500):0.100 * sare + 0.060 *实习生+ 0.060 *获得+ 0.060 *交易+ 0.060 *排气+ 0.060 *设计+ 0.060 *免费+ 0.060 *质量+ 0.060 *商店+ 0.060 *很棒
主题#1(0.500):0.063 * sare + 0.063 * beauti + 0.063 * deliveri + 0.063 *针脚+ 0.063 * varieti + 0.063 *婚礼+ 0.062 *新娘+ 0.062 *很棒+ 0.062 *店铺+0.062 * qualiti
我已使用此script来实现上述内容。
所以问题是如何将上面确定的主题映射到像Fashion这样的人类可读类别?