我们在尝试从Spark Dataframe执行toPandas()函数时遇到问题。
DF只有1200条记录,而Spark创造了77个庞大而昂贵的阶段,可以做到这一点。
我们正在采取行动解决问题:
任何减少工作的想法?
提前致谢,Max。
代码:
def remove_outer_brackets(s):
left = s.index('[')
right = s.rindex(']', left)
return s[:left] + s[left+1:right] + s[right+1:]
更新10/24/2017: 我们发现Spark在内存中没有这些记录,它实际上有计划来获取它们。因此,它创建了一个77阶段的作业,重做所有先前的步骤。 我们正在尝试制作检查点,将部分DF作为表格合并到HDP中。 有没有人知道更好/原生的解决方案?