我有一份文件,我已经标记过了。我有大约400个标签的固定列表 - 与不同的主题有关。每个文档都标有一个或多个标签和一个简短的标题。 (我还有一个更大的标题列表 - 如果文档包含非常相似的内容,我经常重复使用)
我想基于我如何标记现有文档,为我添加到语料库的新文档建立一个建议标签/标题(来自我现有的列表)的界面。
我已经阅读了概率主题模型LDA类,当您没有任何现有的标记数据时,它非常适合分析文本。但是我没有看到任何可以融入现有工作的方法。
任何建议都将不胜感激。
亲切的问候
斯瓦米答案 0 :(得分:0)
对于标签建议,我们的经验只是使用搜索引擎,不需要主题建模。
尝试以下步骤:
此解决方案可行。