我有一个简单的spark streaming
作业,可以跟踪HDFS
目录,读取新添加的文件,然后将其发送到Kafka
。
提交spark作业时,它不起作用并抛出以下异常。
ImportError:无法导入名称KafkaProducer
这是作业的代码(http://pastebin.com/mpKkMkph)
错误很明显。该脚本无法导入kafkaProducer
。问题是我可以从python shell
导入它而没有任何问题。
答案 0 :(得分:0)
最后我可以解决问题,但解决方案非常奇怪,我对发生的事情没有任何解释。
我运行此命令cat my_script.py > new_script.py
然后我使用新文件提交了作业。
每件事情都运作正常,但正如我上面提到的,我对这个问题没有任何解释。
此处需要注意的另一件事是,使用普通cp
命令复制文件也不起作用。只有cat
内容到另一个文件。
这是我第二次遇到python脚本这个问题,我希望任何人都有任何插图。