什么是在pyspark上运行RandomForest或GBT分类器的最简单方法(类似于熊猫)?

时间:2019-12-24 02:37:06

标签: python pandas pyspark

假设我有一个CSV文件,其中包含一些不相关的列(ID,名称等),一些功能各不相同的功能列(功能列表存储在Python列表中)和目标列({{ 1}})。

y中,很容易出现以下内容:

pandas

但是考虑到我已经将CSV文件读入PySpark数据框,因此我很难弄清楚如何使用pyspark做类似的事情。

感谢您的帮助。

非常感谢。

0 个答案:

没有答案