标签: apache-spark apache-spark-sql spark-dataframe apache-spark-mllib
我创建了一个包含多个变换器的ML管道,包括在数据标签培训期间使用的StringIndexer。 然后我存储生成的PipelineModel,稍后将用于数据准备和预测没有标签的数据集。
问题是创建的管道模型的转换功能无法应用于新的DataFrame,因为它希望数据标签可用。
我错过了什么? 该怎么做?
注意:我的目标是拥有一个管道(即我想将各种转换和ML算法保持在一起)
谢谢!
答案 0 :(得分:0)
您应该粘贴源代码。然后您的测试数据格式应与您的列车数据(包括功能名称)保持一致。但您不需要标签列。 您可以参考official site