无法在spark流工作中导入kafkaProducer

时间:2016-05-01 09:46:16

标签: python linux apache-spark apache-kafka spark-streaming

我有一个简单的spark streaming作业,可以跟踪HDFS目录,读取新添加的文件,然后将其发送到Kafka

提交spark作业时,它不起作用并抛出以下异常。

  

ImportError:无法导入名称KafkaProducer

这是作业的代码(http://pastebin.com/mpKkMkph

错误很明显。该脚本无法导入kafkaProducer。问题是我可以从python shell导入它而没​​有任何问题。

1 个答案:

答案 0 :(得分:0)

最后我可以解决问题,但解决方案非常奇怪,我对发生的事情没有任何解释。

我运行此命令cat my_script.py > new_script.py然后我使用新文件提交了作业。

每件事情都运作正常,但正如我上面提到的,我对这个问题没有任何解释。

此处需要注意的另一件事是,使用普通cp命令复制文件也不起作用。只有cat内容到另一个文件。

这是我第二次遇到python脚本这个问题,我希望任何人都有任何插图。