如何管理大量列的数据集?

时间:2018-05-11 16:00:14

标签: scala bigdata apache-spark-mllib pca one-hot-encoding

我处理来自传感器的数据值。这个数据非常大。如果我想使用数据帧,我必须使用一个数量超过250000的列。这些数据是10%数字和90%分类。我想使用OneHotencoder将数据转换为数字,然后使用PCA提取未来以应用机器学习算法:kmeans。这里的主要问题是尺寸太大了。 任何建议请

0 个答案:

没有答案