使用Pyspark运行python脚本的问题

时间:2016-05-21 17:18:00

标签: apache-spark pyspark

我是新来的火花,只是想检查一下我面临的问题。我的目标是读取嵌套的xml文件,将其展平并将其另存为csv文件。我写了代码。它在我的集群中的pyspark中工作正常。当我在pyspark中逐行编写代码时,我可以看到来自不同节点的执行程序被分配了工作进程。现在的问题是,当我运行与python脚本相同的代码时,不会分配来自不同节点的执行程序。工作进程在我运行脚本的节点上启动,并且不会并行化。因此,进行处理需要更长的时间。我在这篇文章附上了警告的截图。

有没有人也面对过它?谢谢你的期待。 此外,我不拥有这个集群,但我正在为某人工作。所以我不知道有多少节点。

enter image description here

1 个答案:

答案 0 :(得分:0)

我确实让它运转了。我没有正确初始化配置。 我已经在spark配置中将setmaster指定为local。 我刚删除了该属性标记,即使在运行脚本时,应用程序也开始在可用的执行程序中进行分发。