不完整的HDFS URI,没有主机

时间:2018-02-23 14:39:33

标签: csv pyspark hdfs

我正在尝试通过PySpark从HDFS读取csv文件。 我使用以下代码:

path='hdfs://XX.XX.XX.XX:X000'

myrdd=sc.textFile(path)

可以正确读取文件。但是,稍后当我尝试将其转换为数据框时,我收到以下错误:

Py4JJavaError:调用o423.partitions时发生错误。 :java.io.IOException:不完整的HDFS URI,没有主机:hdfs://XX.XX.XX.XX:X000

我用来创建数据框的代码是:

from pyspark import Row
instance=Row('feature1', 'feature2')
ins=myrdd.map(lambda r: instance(*r))
df = hc.createDataFrame(ins)
df.collect()

只是提一下,如果我改变了一个实际上不存在的文件的路径,那么伪文件仍然可以以某种方式读取,这让我觉得真实文件有问题但我并不完全确定。这可能是配置问题吗?

0 个答案:

没有答案