使用python在pyspark数据框上进行转置操作

时间:2017-08-10 11:56:08

标签: python python-3.x pyspark spark-dataframe transpose

我是python和pyspark的新手,我使用pandas df.T完成了转置操作。我发现pyspark数据帧没有直接操作(pyspark version = 2.2.0和python version = 3.6.2)

我正在使用以下代码

为上述操作加载CSV文件

from pyspark.sql import SQLContext sql = SQLContext(spark_context) path = 'sample.csv' df = (sql.read.format("com.databricks.spark.csv").option("header","true").option("inferSchema", "true").load(path))

1 个答案:

答案 0 :(得分:0)

您的数据架构是什么?

如果它是某种稀疏矩阵,您可以使用常规RDD加载并映射+交换您的坐标。