Pyspark Logistic回归模型在保存后改变准确性

时间:2017-05-12 05:10:08

标签: python pyspark apache-spark-ml

我构建了一个Pyspark多项Logistic回归模型,并将其与Django Web应用程序集成,以便我对查询集进行预测。在我的模型上,我使用推荐的

保存了它
select filmId,
    titel,
    genre
from films
inner join genres on films.genreId = genres.genreId
where (
        titel not like '%blood%'
        and titel not like '%kill%'
        )
    and genre in ('thriller', 'griezel')

当我在我的模型中测试时,eveything将正常工作并且准确度 92%但是当我在我的django应用程序中保存并加载我的模型时,准确度变得非常低且大约 22%即可。

如何在保持相同精度等级和参数的同时保存和加载模型?

1 个答案:

答案 0 :(得分:2)

当您进行Logistic回归时,最终会得到一些在保存时不会改变的权重。同样在准确性方面,不确定您是否理解机器学习的概念,但输入是数据。我想你可能使用了不同的数据作为你的django应用程序的输入,然后当然可能会发生你的准确性低。除非您使用训练模型的相同数据集,否则无法保持相同的准确度水平,但称为过度拟合。