pyspark.sql.functions.explode是否有反函数?我不需要将数组扩展到Apache Spark DataFrame中的单独行,而是需要根据存储在DataFrame中的非零元素创建数组。
我想确保这个映射函数在工作节点上以分布式方式执行,而不是在驱动程序节点上以串行方式执行。在https://blogs.msdn.microsoft.com/azuredatalake/2016/02/10/pyspark-appending-columns-to-dataframe-when-dataframe-withcolumn-cannot-be-used/建议的一般方法看起来很有希望,但我不确定解决数组创建问题的最佳方法。