读取csv文件的PySpark-PyTest目录路径

时间:2019-02-05 11:11:20

标签: python csv apache-spark pyspark pytest

问题:Spark csv的目录路径引用了先前的目录。

包含csv文件 1. home/test/folder1/data/1.csv sp.read.option.csv(data/1.csv) 2. home/test/folder2/data/2.csv sp.read.option.csv(data/2.csv)

包含pytest文件 1. home/test/folder1/python_file1.py 2. home/test/folder2/python_file2.py

以下命令在home/test/

执行
pytest -v

pytest执行home/test/folder1/python_file1.py并创建spark会话。

pytest执行home/test/folder2/python_file2.py并创建spark会话,并且csv引用home/test/folder1/data/而不引用home/test/folder2/data/

sp.read.option.csv()

sp存在于conftest.py中,它指向本地模式。

SparkSession.builder.master.getorcreate()

问题:如何在spark中设置home/test/folder2/的目录路径,以便可以动态读取csv

0 个答案:

没有答案