应用错误收集

我正在尝试使用Visual Studio代码从pyspark的hdfs中获取文件...

我已经通过jps检查了所有节点仅处于活动状态。
我在hadoop中的文件路径是 hadoop fs -cat emp / part-m-00000

1，A，ABC 2，B，ABC 3，C，ABC
和core-site.xml是 fs.default.name hdfs：// localhost：9000
am通过pyspark中的visual studio代码获取上述文件。

但出现类似

的错误

py4j.protocol.Py4JJavaError：调用o31.partitions时发生错误。：org.apache.hadoop.mapred.InvalidInputException：输入路径不存在：hdfs：// localhost：9000 / emp / part-m-00000

请帮助我

我尝试给出了hadoop路径

from pyspark.conf import SparkConf
from pyspark.context import SparkContext
from pyspark.sql import HiveContext
sc= SparkContext('local','example')
hc = HiveContext(sc)
tf1 = sc.textFile("hdfs://localhost:9000/emp/part-m-00000")
print(tf1.first())

我需要从hadoop获取文件

pyspark中的hadoop路径不存在输入路径

0 个答案: