应用错误收集

如何管理大量列的数据集？

时间：2018-05-11 16:00:14

标签： scala bigdata apache-spark-mllib pca one-hot-encoding

我处理来自传感器的数据值。这个数据非常大。如果我想使用数据帧，我必须使用一个数量超过250000的列。这些数据是10％数字和90％分类。我想使用OneHotencoder将数据转换为数字，然后使用PCA提取未来以应用机器学习算法：kmeans。这里的主要问题是尺寸太大了。任何建议请

0 个答案:

没有答案