我尝试运行此code from github(按照1-2-3步骤),在Sarah Palin的14,500封电子邮件中识别出30个主题。作者发现的主题是here。但是,斯坦福主题建模工具箱不会为我生成lda输出目录。它生成了lda-86a58136-30-2b1a90a6,但此文件夹中的summary.txt仅显示主题的初始分配,而不是最终的主题分配。任何想法如何生成lda输出目录与发现的主题的最终摘要?提前谢谢!
答案 0 :(得分:0)
您是否尝试过posted here指示?
请注意,我看到原始调查员使用Sarah Palin的电子邮件训练模型,然后使用该训练模型分析Sarah Palin的电子邮件。虽然我不是LDA专家,但这通常都是“找到你所拥有的”。
在大多数学科中,培训将根据一组已根据专家判别进行分类的已知项目进行。这意味着培训将包括从其他来源提供已知可能主题中的一组数据,然后使用LDA库来确定与“学习”数据库中主题的距离。
无论如何,祝你好运。
如果您遇到特定问题,请发布错误以及您为达到该错误所采取的步骤。很少有人投入时间尝试重现问题(纠正问题的典型先决条件),没有方向,甚至无法确定他们遇到的问题是否与您的相似。