Pyspark - HashingTF治疗"鸡蛋可以"并且"可以鸡蛋"相同?

时间:2017-03-26 03:22:15

标签: python apache-spark hash pyspark jupyter-notebook

某些代码未按预期工作。看起来,HashingTF函数为具有完全相同单词的字符串返回相同的散列,而不管单词的顺序如何。有人可以证实吗?

hashingTF = HashingTF(inputCol=mytokenizer.getOutputCol(), 
outputCol="features")

1 个答案:

答案 0 :(得分:0)

是。 HashingTF将输入视为“词袋”(与词序无关)。如果“bags”相同,则会获得相同的哈希值。