我正在尝试使用以下方法在基本的三个节点中训练ldamodel并将其保存到本地系统目录中:
LDAModel.save("/usr/local/LDAModel")
在应用程序成功完成显示生成的主题信息并且没有错误日志之后,我发现模型分散在三个节点中。每个节点都有不同的部分。每个节点都应该具有整个模型吗?
在一个节点上,我有part-00000-33e414f9-3eaa-4498-80fc-7d75d5ecb55f.snappy.parquet
文件,在另一个节点上,我只看到了一个名为_SUCCESS
的空白文件。这是应该发生的吗?我必须指定一些输出参数吗?
我以为Spark可能会在三个节点上随机保存两个完整模型的副本,但是后来我看到保存目录与在本地运行应用程序甚至有所不同。在本地运行时,LDAModel目录就像{{ 3}},然后如果我在三个节点集群中运行该应用程序,则LDAModel目录将类似于enter image description here
谢谢!