应用错误收集

使用Pyspark运行python脚本的问题

时间：2016-05-21 17:18:00

标签： apache-spark pyspark

我是新来的火花，只是想检查一下我面临的问题。我的目标是读取嵌套的xml文件，将其展平并将其另存为csv文件。我写了代码。它在我的集群中的pyspark中工作正常。当我在pyspark中逐行编写代码时，我可以看到来自不同节点的执行程序被分配了工作进程。现在的问题是，当我运行与python脚本相同的代码时，不会分配来自不同节点的执行程序。工作进程在我运行脚本的节点上启动，并且不会并行化。因此，进行处理需要更长的时间。我在这篇文章附上了警告的截图。

有没有人也面对过它？谢谢你的期待。此外，我不拥有这个集群，但我正在为某人工作。所以我不知道有多少节点。

1 个答案:

答案 0 :(得分：0)

我确实让它运转了。我没有正确初始化配置。我已经在spark配置中将setmaster指定为local。我刚删除了该属性标记，即使在运行脚本时，应用程序也开始在可用的执行程序中进行分发。