应用错误收集

使用python在pyspark数据框上进行转置操作

时间：2017-08-10 11:56:08

标签： python python-3.x pyspark spark-dataframe transpose

我是python和pyspark的新手，我使用pandas df.T完成了转置操作。我发现pyspark数据帧没有直接操作（pyspark version = 2.2.0和python version = 3.6.2）

我正在使用以下代码

为上述操作加载CSV文件

from pyspark.sql import SQLContext sql = SQLContext(spark_context) path = 'sample.csv' df = (sql.read.format("com.databricks.spark.csv").option("header","true").option("inferSchema", "true").load(path))

1 个答案:

答案 0 :(得分：0)

您的数据架构是什么？

如果它是某种稀疏矩阵，您可以使用常规RDD加载并映射+交换您的坐标。

转置数据框
转置数据帧
数据框的操作
在聚合数据框上执行操作后，Pyspark冻结
在python数据框
使用dplyr转换数据帧组
使用python在pyspark数据框上进行转置操作
如何转置数据框
使用列中的值对数据框进行子集
如何从Spark Magic中的Pandas Data Frame创建Spark Data Frame？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？