Spark中的HashingTF是确定性的吗?

时间:2018-10-26 19:26:26

标签: pyspark apache-spark-mllib apache-spark-ml

我想使用HashingTF对大型数据集进行一些对象计数,但是稍后我将对不同的数据集进行相同的计数。我是否需要从第一次运行中保存HashingTF模型以确保对象映射到相同的哈希值,或者如果我只是使用HashingTF的新实例,这是否会发生(假设我始终使用numFeatures是否具有相同的值?

0 个答案:

没有答案