如何安装/导入pyspark-csv?

时间:2015-07-29 06:59:16

标签: python csv pyspark

我正在尝试使用PySpark中的CSV文件中的数据。我找到了一个名为PySpark-CSV的模块,它完全符合我的需要。根据{{​​3}},“不需要安装”,所以我想我可以在我的Python路径中解压缩名为'pyspark_csv'的目录中的源并运行他们网站上列出的命令:

import pyspark_csv as pycsv
sc.addPyFile('pyspark_csv.py')

但这会导致我输入错误,说它无法找到pyspark_csv。

自述文件对我没有任何帮助,其他信息很少。这里有人熟悉模块吗?

1 个答案:

答案 0 :(得分:2)

这意味着Python无法找到pyspark_csv.py。这是因为您将文件放在pyspark_csv中并且Python没有意识到这一点。假设目录的完整路径是`/ foo / pyspark_csv'。您可以修改PYTHONPATH,或使用其他方法通知Python您放置文件的位置。

#Run this in bash shell before you excute python
#Or put thisline in a bottom of .bashrc file.
export PYTHONPATH=$PYTHONPATH:/foo/pyspark_csv

也使用Spark的完整路径:

sc.addPyFile('/foo/pyspark_csv/pyspark_csv.py')