在现有数据帧上运行ML算法

时间:2016-12-28 22:46:27

标签: apache-spark

我是Spark的新手,我试图弄清楚使用它执行数据科学的过程是什么。具体来说,我知道如何从现有数据中创建Dataframes,然后执行一些分析。

现在我试图了解如何在已经存在于数据帧中的数据上运行ML算法。当我查看ML文档时,我看到Dataframes是使用Vectors(密集或稀疏)创建的,但是我现有的数据帧并不是这样。我想知道如何将具有多个列的现有数据帧转换为数据帧,并将单个列放在向量中?

尝试执行探索性分析时,通常的步骤是什么,首先是一些情节,然后在相同的数据帧上执行ML?

1 个答案:

答案 0 :(得分:1)

  • org.apache.spark.ml.feature / pyspark.ml.feature包含大量功能提取工具,这些工具已被广泛记录(Extracting, transforming and selecting features
  • Spark不适合探索性数据分析。通常,您使用Spark来采样/清理/聚合并收集数据,以便使用独立的本地工具进行可视化。商业环境(如Databricks)和一些开源库(如Apache Zeppelin)提供了有限的工具,可以直接用于收集的结果。