我试图找出如何在PySpark中优化我的.fit()和.transform()
我有:
vectorized_df = model.fit(cleaned).transform(cleaned)
我见过这样的话:
let greeting = "Guten Tag!"
let index = greeting.index(greeting.startIndex, offsetBy: 7)
greeting[index]
但我不确定这是否相同,或以某种方式优化操作
答案 0 :(得分:2)
无所事事。如果
Estimator
(例如CountVectorizer
),它在Pipeline.fit
中受到培训。Transformer
(如HashingTF
),直接返回。