使用(LDA,HDP)自动创建主题?

时间:2014-01-27 08:43:50

标签: machine-learning lda

我正在编写CV(履历)进行分类,我使用过LDA。 通过设置(N = 3),我对CV(营销,计算机,通信)的3个不同概念的结果是好的。 现在的问题是,我如何创建新的主题(当然,通过将其添加到现有主题中)来创建具有财务概念(或可能是其他概念)的新简历?

事实上,我的目标是每次都能产生新主题以获得新概念。

我每天都有不同的简历,不同的概念,我怀疑选择哪种算法(HDP,On_Line LDA)可以自动进行分类。

1 个答案:

答案 0 :(得分:0)

LDA或其他主题模型不是分类方法。在监督学习的背景下,它们应被视为降维/预处理/同义词发现方法:不是将文档表示为分类器作为一个单词包,而是将其表示为主题的后验。不要假设因为您在分类任务中有3个类,所以您为LDA选择了3个主题。主题模型参数应设置为最佳模型文档(通过困惑度测量,或主题模型的一些其他质量度量,检查David Mimno最近的其他可能性工作),以及主题概率/后验参数的向量(或任何你认为有用)然后应该用有监督的学习方法。

你会发现这正是Blei等人在最初的LDA论文中所遵循的实验设置。