为什么斯坦福主题建模工具箱不能生成lda输出目录?

时间:2012-04-18 19:59:32

标签: nlp machine-learning stanford-nlp text-analysis lda

我尝试运行此code from github(按照1-2-3步骤),在Sarah Palin的14,500封电子邮件中识别出30个主题。作者发现的主题是here。但是,斯坦福主题建模工具箱不会为我生成lda输出目录。它生成了lda-86a58136-30-2b1a90a6,但此文件夹中的summary.txt仅显示主题的初始分配,而不是最终的主题分配。任何想法如何生成lda输出目录与发现的主题的最终摘要?提前谢谢!

1 个答案:

答案 0 :(得分:0)

您是否尝试过posted here指示?

请注意,我看到原始调查员使用Sarah Palin的电子邮件训练模型,然后使用该训练模型分析Sarah Palin的电子邮件。虽然我不是LDA专家,但这通常都是“找到你所拥有的”。

在大多数学科中,培训将根据一组已根据专家判别进行分类的已知项目进行。这意味着培训将包括从其他来源提供已知可能主题中的一组数据,然后使用LDA库来确定与“学习”数据库中主题的距离。

无论如何,祝你好运。

如果您遇到特定问题,请发布错误以及您为达到该错误所采取的步骤。很少有人投入时间尝试重现问题(纠正问题的典型先决条件),没有方向,甚至无法确定他们遇到的问题是否与您的相似。