应用错误收集

我正在尝试使用自定义的Hadoop输入格式来读取HDFS上的一些数据。这是我在pyspark上使用的命令， rdds=sc.newAPIHadoopFile("inputPATH","com.jet1.custom.spark.CustomInputFormat","org.apache.hadoop.io.LongWritable","com.jet1.spark.val",{"fs.defaultFS":"hdfs://localhost:8020"});

我在运行pyspark时已经通过了相应的jar。但是我收到了错误

py4j.Py4JException: Method newAPIHadoopFile([class org.apache.spark.api.java.JavaSparkContext, class java.lang.String, class java.lang.String, class java.lang.String, class java.lang.String, class java.util.HashMap, null, class java.util.HashMap, class java.lang.Integer]) does not exist

我认为这是因为一些错误的配置设置，而不是特别是因为命令中的错误。此外，JAVA_HOME设置在终端环境中。任何可能出错的想法。

在PySpark

0 个答案: