根据训练有素的LDA模型从新文档中获取主题

时间:2019-11-01 11:33:57

标签: scala apache-spark machine-learning lda

我见过类似的问题,但这些问题仅适用于PySpark。

我查看了Spark文档上的this LDA示例,但没有找到任何方法,如何使用该模型来检测全新文本或文档中的主题(来自已建立的主题)。

例如:如果我使用路透社数据集的子集,则意味着我有以下主题:

comp.graphics             rec.motorcycles     sci.crypt        sci.space           talk.religion.misc
comp.sys.ibm.pc.hardware  rec.sport.baseball  sci.electronics  talk.politics.guns
rec.autos                 rec.sport.hockey    sci.med          talk.politics.misc

然后我有一个知道13个主题的模型,如果我将一个全新的文档传递给有关糖尿病的模型,那么我应该找回最合适的主题,例如sci.med

有可能实现这一目标吗?如果是,该怎么办?

0 个答案:

没有答案