将大量字符串列更改为整数的最佳方法

时间:2018-01-22 20:10:59

标签: apache-spark pyspark apache-spark-sql apache-spark-mllib apache-spark-ml

当我读入我的数据时,我将所有列都作为字符串类型,我相信由于数据中的空值。用' 0'替换空值后我有一个1000列的大型稀疏数据集,其中包含0和#1和#1的字符串类型。

我相信为了让这个运行任何ML算法我需要使用VectorAssembler,这需要数字类型。将字符串0和1的整个数据集更改为整数类型的最佳方法是什么?

我可以使用stringIndexer替换1000列吗?我在语法方面遇到了麻烦。或者我应该使用' cast'?

0 个答案:

没有答案