PySpark:有没有办法在一次操作中执行.fit()和.transform()?

时间:2016-11-07 15:53:51

标签: apache-spark pyspark apache-spark-mllib

我试图找出如何在PySpark中优化我的.fit()和.transform()

我有:

vectorized_df = model.fit(cleaned).transform(cleaned)

我见过这样的话:

let greeting = "Guten Tag!"
let index = greeting.index(greeting.startIndex, offsetBy: 7)
greeting[index]

但我不确定这是否相同,或以某种方式优化操作

1 个答案:

答案 0 :(得分:2)

无所事事。如果

  • 阶段是Estimator(例如CountVectorizer),它在Pipeline.fit中受到培训。
  • stage是Transformer(如HashingTF),直接返回。