我是python和pyspark的新手,我使用pandas df.T
完成了转置操作。我发现pyspark数据帧没有直接操作(pyspark version = 2.2.0和python version = 3.6.2)
我正在使用以下代码
为上述操作加载CSV文件 from pyspark.sql import SQLContext
sql = SQLContext(spark_context)
path = 'sample.csv'
df = (sql.read.format("com.databricks.spark.csv").option("header","true").option("inferSchema", "true").load(path))
答案 0 :(得分:0)
您的数据架构是什么?
如果它是某种稀疏矩阵,您可以使用常规RDD加载并映射+交换您的坐标。