Question

某些代码未按预期工作。看起来，HashingTF函数为具有完全相同单词的字符串返回相同的散列，而不管单词的顺序如何。有人可以证实吗？

hashingTF = HashingTF(inputCol=mytokenizer.getOutputCol(), 
outputCol="features")

Answer 1

是。 HashingTF将输入视为“词袋”（与词序无关）。如果“bags”相同，则会获得相同的哈希值。