标签: scala apache-spark machine-learning apache-spark-mllib
为什么必须限制HashingTF(桶数)产生的最大功能数量?我试图将其设置为Int.MaxValue,但在尝试分配大型数组时内存不足。为什么它不能产生稀疏的向量?
HashingTF
Int.MaxValue