我见过类似的问题,但这些问题仅适用于PySpark。
我查看了Spark文档上的this LDA示例,但没有找到任何方法,如何使用该模型来检测全新文本或文档中的主题(来自已建立的主题)。
例如:如果我使用路透社数据集的子集,则意味着我有以下主题:
comp.graphics rec.motorcycles sci.crypt sci.space talk.religion.misc
comp.sys.ibm.pc.hardware rec.sport.baseball sci.electronics talk.politics.guns
rec.autos rec.sport.hockey sci.med talk.politics.misc
然后我有一个知道13个主题的模型,如果我将一个全新的文档传递给有关糖尿病的模型,那么我应该找回最合适的主题,例如sci.med
有可能实现这一目标吗?如果是,该怎么办?