我正在尝试使用PySpark中的CSV文件中的数据。我找到了一个名为PySpark-CSV的模块,它完全符合我的需要。根据{{3}},“不需要安装”,所以我想我可以在我的Python路径中解压缩名为'pyspark_csv'的目录中的源并运行他们网站上列出的命令:
import pyspark_csv as pycsv
sc.addPyFile('pyspark_csv.py')
但这会导致我输入错误,说它无法找到pyspark_csv。
自述文件对我没有任何帮助,其他信息很少。这里有人熟悉模块吗?
答案 0 :(得分:2)
这意味着Python无法找到pyspark_csv.py
。这是因为您将文件放在pyspark_csv
中并且Python没有意识到这一点。假设目录的完整路径是`/ foo / pyspark_csv'。您可以修改PYTHONPATH,或使用其他方法通知Python您放置文件的位置。
#Run this in bash shell before you excute python
#Or put thisline in a bottom of .bashrc file.
export PYTHONPATH=$PYTHONPATH:/foo/pyspark_csv
也使用Spark的完整路径:
sc.addPyFile('/foo/pyspark_csv/pyspark_csv.py')