我在Java / Scala中做了很多火花工作,我可以直接从main()程序运行一些测试火花作业,只要我在maven pom.xml中添加所需的火花罐。
现在我开始使用pyspark了。我想知道我是否可以做类似的事情?例如,我使用pycharm来运行wordCount作业:
如果我只运行main()程序,我收到以下错误:
Traceback (most recent call last):
File "/Applications/PyCharm.app/Contents/helpers/profiler/run_profiler.py", line 145, in <module>
profiler.run(file)
File "/Applications/PyCharm.app/Contents/helpers/profiler/run_profiler.py", line 84, in run
pydev_imports.execfile(file, globals, globals) # execute the script
File "/Users/edamame/PycharmProjects/myWordCount/myWordCount.py", line 6, in <module>
from pyspark import SparkContext
ImportError: No module named pyspark
Process finished with exit code 1
我想知道如何在这里导入pyspark?所以我可以像在Java / Scala中那样从main()程序运行一些测试工作。
和来自Run的截图 - &gt;编辑配置:
我在这里错过了什么吗?谢谢!
答案 0 :(得分:2)
我终于按照这篇文章中的步骤开始工作了。这真的很有帮助!
https://medium.com/data-science-cafe/pycharm-and-apache-spark-on-mac-os-x-990af6dc6f38#.jk5hl4kz0
答案 1 :(得分:0)
我将$ SPARK_HOME / python / lib下的py4j-xxx-src.zip和pyspark.zip添加到项目结构(首选项&gt;项目&gt;项目结构,然后执行“+添加内容根”)并且它工作正常
PS:Pycharm已经从os env读取了$ PYTHONPATH和$ SPARK_HOME,它是在.bashrc / .bash_profile中设置的