pyspark很多阶段在toPandas()中只有几个记录

时间:2017-10-23 18:15:48

标签: apache-spark pyspark spark-dataframe

我们在尝试从Spark Dataframe执行toPandas()函数时遇到问题。

DF只有1200条记录,而Spark创造了77个庞大而昂贵的阶段,可以做到这一点。

我们正在采取行动解决问题:

  1. df.repartition(1)在toPandas()函数之后。
  2. 一个。将DF保存为HDP,作为填充外部表的csv; 湾查询该表; C。 toPandas()
  3. 任何减少工作的想法?

    提前致谢,Max。

    代码: def remove_outer_brackets(s): left = s.index('[') right = s.rindex(']', left) return s[:left] + s[left+1:right] + s[right+1:]

    更新10/24/2017: 我们发现Spark在内存中没有这些记录,它实际上有计划来获取它们。因此,它创建了一个77阶段的作业,重做所有先前的步骤。 我们正在尝试制作检查点,将部分DF作为表格合并到HDP中。 有没有人知道更好/原生的解决方案?

0 个答案:

没有答案