我是Spark的新手,我试图弄清楚使用它执行数据科学的过程是什么。具体来说,我知道如何从现有数据中创建Dataframes,然后执行一些分析。
现在我试图了解如何在已经存在于数据帧中的数据上运行ML算法。当我查看ML文档时,我看到Dataframes是使用Vectors(密集或稀疏)创建的,但是我现有的数据帧并不是这样。我想知道如何将具有多个列的现有数据帧转换为数据帧,并将单个列放在向量中?
尝试执行探索性分析时,通常的步骤是什么,首先是一些情节,然后在相同的数据帧上执行ML?
答案 0 :(得分:1)
org.apache.spark.ml.feature
/ pyspark.ml.feature
包含大量功能提取工具,这些工具已被广泛记录(Extracting, transforming and selecting features)