pyspark中的hadoop路径不存在输入路径

时间:2019-04-23 10:59:38

标签: visual-studio pyspark hadoop2

我正在尝试使用Visual Studio代码从pyspark的hdfs中获取文件...

  1. 我已经通过jps检查了所有节点仅处于活动状态。
  2. 我在hadoop中的文件路径是 hadoop fs -cat emp / part-m-00000

    1,A,ABC 2,B,ABC 3,C,ABC

  3. 和core-site.xml是 fs.default.name hdfs:// localhost:9000

  4. am通过pyspark中的visual studio代码获取上述文件。

但出现类似

的错误

py4j.protocol.Py4JJavaError:调用o31.partitions时发生错误。 :org.apache.hadoop.mapred.InvalidInputException:输入路径不存在:hdfs:// localhost:9000 / emp / part-m-00000

请帮助我

我尝试给出了hadoop路径

from pyspark.conf import SparkConf
from pyspark.context import SparkContext
from pyspark.sql import HiveContext
sc= SparkContext('local','example')
hc = HiveContext(sc)
tf1 = sc.textFile("hdfs://localhost:9000/emp/part-m-00000")
print(tf1.first())

我需要从hadoop获取文件

0 个答案:

没有答案