应用错误收集

什么是在pyspark上运行RandomForest或GBT分类器的最简单方法（类似于熊猫）？

时间：2019-12-24 02:37:06

标签： python pandas pyspark

假设我有一个CSV文件，其中包含一些不相关的列（ID，名称等），一些功能各不相同的功能列（功能列表存储在Python列表中）和目标列（{{ 1}}）。

在y中，很容易出现以下内容：

pandas

但是考虑到我已经将CSV文件读入PySpark数据框，因此我很难弄清楚如何使用pyspark做类似的事情。

感谢您的帮助。

非常感谢。

0 个答案:

没有答案