我正在尝试使用Visual Studio代码从pyspark的hdfs中获取文件...
我在hadoop中的文件路径是 hadoop fs -cat emp / part-m-00000
1,A,ABC 2,B,ABC 3,C,ABC
和core-site.xml是 fs.default.name hdfs:// localhost:9000
am通过pyspark中的visual studio代码获取上述文件。
但出现类似
的错误py4j.protocol.Py4JJavaError:调用o31.partitions时发生错误。 :org.apache.hadoop.mapred.InvalidInputException:输入路径不存在:hdfs:// localhost:9000 / emp / part-m-00000
请帮助我
我尝试给出了hadoop路径
from pyspark.conf import SparkConf
from pyspark.context import SparkContext
from pyspark.sql import HiveContext
sc= SparkContext('local','example')
hc = HiveContext(sc)
tf1 = sc.textFile("hdfs://localhost:9000/emp/part-m-00000")
print(tf1.first())
我需要从hadoop获取文件