应用错误收集

我见过类似的问题，但这些问题仅适用于PySpark。

我查看了Spark文档上的this LDA示例，但没有找到任何方法，如何使用该模型来检测全新文本或文档中的主题（来自已建立的主题）。

例如：如果我使用路透社数据集的子集，则意味着我有以下主题：

comp.graphics             rec.motorcycles     sci.crypt        sci.space           talk.religion.misc
comp.sys.ibm.pc.hardware  rec.sport.baseball  sci.electronics  talk.politics.guns
rec.autos                 rec.sport.hockey    sci.med          talk.politics.misc

然后我有一个知道13个主题的模型，如果我将一个全新的文档传递给有关糖尿病的模型，那么我应该找回最合适的主题，例如sci.med

有可能实现这一目标吗？如果是，该怎么办？

根据训练有素的LDA模型从新文档中获取主题

0 个答案: