应用错误收集

时间：2016-12-28 22:46:27

标签： apache-spark

我是Spark的新手，我试图弄清楚使用它执行数据科学的过程是什么。具体来说，我知道如何从现有数据中创建Dataframes，然后执行一些分析。

现在我试图了解如何在已经存在于数据帧中的数据上运行ML算法。当我查看ML文档时，我看到Dataframes是使用Vectors（密集或稀疏）创建的，但是我现有的数据帧并不是这样。我想知道如何将具有多个列的现有数据帧转换为数据帧，并将单个列放在向量中？

尝试执行探索性分析时，通常的步骤是什么，首先是一些情节，然后在相同的数据帧上执行ML？

答案 0 :(得分：1)

org.apache.spark.ml.feature / pyspark.ml.feature包含大量功能提取工具，这些工具已被广泛记录（Extracting, transforming and selecting features）
Spark不适合探索性数据分析。通常，您使用Spark来采样/清理/聚合并收集数据，以便使用独立的本地工具进行可视化。商业环境（如Databricks）和一些开源库（如Apache Zeppelin）提供了有限的工具，可以直接用于收集的结果。