应用错误收集

使用python在SPARK中处理非常大的文档时出现大小问题

时间：2016-01-11 06:40:26

标签： python hadoop apache-spark warnings pyspark

我使用python脚本使用SPARK处理存储在hdfs中的xml文档。

files = sc.wholeTextFiles("hdfs://xxx/data").collect()

这里/ data目录有超过10,000个xml文档。我必须使用SPARK处理所有文件。但是当我试图运行时，我收到以下错误消息：

WARN TaskSetManager: Stage 0 contains a task of very large size (451 KB). The maximum recommended task size is 100 KB

如何纠正此错误。有人可以帮我解决这个问题吗？

提前致谢。

1 个答案:

答案 0 :(得分：0)

我现在得到了答案。我使用以下代码最大化了分区：files = sc.wholeTextFiles("hdfs://xxx/data",10).collect()