如何在pyspark中从非零DataFrame元素创建数组

时间:2016-05-10 18:13:31

标签: python arrays apache-spark pyspark spark-dataframe

pyspark.sql.functions.explode是否有反函数?我不需要将数组扩展到Apache Spark DataFrame中的单独行,而是需要根据存储在DataFrame中的非零元素创建数组。

  • 输入:包含列的DataFrame(key1,key2,array_index,array_value)
  • 输出:带有列(key1,key2,array [])的DataFrame,由(key1,key2)对减少。

我想确保这个映射函数在工作节点上以分布式方式执行,而不是在驱动程序节点上以串行方式执行。在https://blogs.msdn.microsoft.com/azuredatalake/2016/02/10/pyspark-appending-columns-to-dataframe-when-dataframe-withcolumn-cannot-be-used/建议的一般方法看起来很有希望,但我不确定解决数组创建问题的最佳方法。

0 个答案:

没有答案