在每个迭代步骤中获取Spark指标?

时间:2016-02-25 13:08:55

标签: apache-spark machine-learning

对特定数据集应用spark的逻辑回归需要定义多次迭代。到目前为止,我已经了解到在每次迭代中输出成本函数的结果可能是有用的信息。它可用于可视化函数需要收敛到最小的迭代次数。我想知道是否有办法在spark中输出这些信息?循环使用具有不同迭代次数的train()函数,听起来像是需要在大型数据集上花费大量时间的解决方案。很高兴知道是否已经内置了更好的产品。感谢您就此主题提出任何建议。

1 个答案:

答案 0 :(得分:1)

在您训练了具有此类历史记录的模型(称为 myModel )之后,您可以使用

获取迭代迭代历史记录
myModel.summary.objectiveHistory.foreach(...)

Spark ML文档中有一个很好的例子here - 一旦你知道正确的搜索词。