Question

我想使用PySpark（Spark 1.6.2）对Hive表中存在的数值数据执行主成分分析（PCA）。我能够将Hive表导入Spark数据帧：

>>> from pyspark.sql import HiveContext
>>> hiveContext = HiveContext(sc)
>>> dataframe = hiveContext.sql("SELECT * FROM my_table")
>>> type(dataframe)
<class 'pyspark.sql.dataframe.DataFrame'>
>>> dataframe.columns
['par001', 'par002', 'par003', etc...]
>>> dataframe.collect()
[Row(par001=1.1, par002=5.5, par003=8.2, etc...), Row(par001=0.0, par002=5.7, par003=4.2, etc...), etc...]

这是一篇优秀的StackOverflow帖子，展示了如何在PySpark中执行PCA：https://stackoverflow.com/a/33481471/2626491

在＆＃39;测试＆＃39; @desertnaut在帖子的一部分创建了一个只包含一列的数据框（称为＆＃39; features＆＃39;）：

>>> from pyspark.ml.feature import *
>>> from pyspark.mllib.linalg import Vectors
>>> data = [(Vectors.dense([0.0, 1.0, 0.0, 7.0, 0.0]),),
...          (Vectors.dense([2.0, 0.0, 3.0, 4.0, 5.0]),),
...          (Vectors.dense([4.0, 0.0, 0.0, 6.0, 7.0]),)]
>>> df = sqlContext.createDataFrame(data,["features"])
>>> type(df)
<class 'pyspark.sql.dataframe.DataFrame'>
>>> df.columns
['features']
>>> df.collect()
[Row(features=DenseVector([0.0, 1.0, 0.0, 7.0, 0.0])), Row(features=DenseVector([2.0, 0.0, 3.0, 4.0, 5.0])), Row(features=DenseVector([4.0, 0.0, 0.0, 6.0, 7.0]))]

@ desertnaut示例数据框中的每一行都包含一个DenseVector对象，然后由pca函数使用。

问：如何将数据框从Hive转换为单列数据框（＆＃34;功能＆＃34;），其中每行包含一个代表原始行中所有值的DenseVector？

Answer 1

您应该使用VectorAssembler。如果数据类似于：

from pyspark.sql import Row

data = sc.parallelize([
    Row(par001=1.1, par002=5.5, par003=8.2),
    Row(par001=0.0, par002=5.7, par003=4.2)
]).toDF()

你应该导入所需的类：

from pyspark.ml.feature import VectorAssembler

创建一个实例：

assembler = VectorAssembler(inputCols=data.columns, outputCol="features")

转换并选择：

assembler.transform(data).select("features")

您还可以使用用户定义的功能。在Spark 1.6中，从Vectors导入VectorUDT和mllib：

from pyspark.mllib.linalg import Vectors, VectorUDT

来自udf的

和sql.functions：

from pyspark.sql.functions import udf, array

并选择：

data.select(
  udf(Vectors.dense, VectorUDT())(*data.columns)
).toDF("features")

这不是那么冗长，而是慢得多。

PySpark PCA：如何将数据帧行从多列转换为单列DenseVector？

1 个答案: