spark默认尝试读取来自Hdfs的csv。那么如何读取本地csv文件呢? Pyspark

时间:2016-11-19 17:44:16

标签: python apache-spark hdfs pyspark

最初我正在读取放置在我的独立群集中所有节点中的csv文件(本地)。

df = spark.read.csv('/data/TRX_FILE/1000_trx.csv',header=True)
#Everything was fine then

现在我安装了HDFS并在所有节点的spark-env.sh中设置了conf路径

export HADOOP_CONF_DIR=/etc/hadoop/conf  ###to read/avoid core_site.xml  error

并尝试读取相同的csv,我打算做一些分析,然后写入Hdfs路径。但到目前为止,我的csv处于LOCAL PATH。

#when tried 
df = spark.read.csv('/data/TRX_FILE/1000_trx.csv',header=True)
#Error:
 raise AnalysisException(s.split(': ', 1)[1], stackTrace)
  pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://Myspark:9000/data/TRX_FILE/1000_trx.csv;'

我的问题是:为什么即使它试图从HDFS读取???我甚至没有提到HDFS路径......因为我的意图或要求是从本地读取csv ...我只是对问题和解决方案感到困惑。 在这里有什么我做错的吗?请跟我纠正。

请帮助我专家..感谢Adv。

0 个答案:

没有答案