标签: python apache-spark hash pyspark jupyter-notebook
某些代码未按预期工作。看起来,HashingTF函数为具有完全相同单词的字符串返回相同的散列,而不管单词的顺序如何。有人可以证实吗?
hashingTF = HashingTF(inputCol=mytokenizer.getOutputCol(), outputCol="features")
答案 0 :(得分:0)
是。 HashingTF将输入视为“词袋”(与词序无关)。如果“bags”相同,则会获得相同的哈希值。