在PySpark

时间:2017-07-15 09:19:12

标签: hadoop pyspark

我正在尝试使用自定义的Hadoop输入格式来读取HDFS上的一些数据。这是我在pyspark上使用的命令, rdds=sc.newAPIHadoopFile("inputPATH","com.jet1.custom.spark.CustomInputFormat","org.apache.hadoop.io.LongWritable","com.jet1.spark.val",{"fs.defaultFS":"hdfs://localhost:8020"});

我在运行pyspark时已经通过了相应的jar。 但是我收到了错误

py4j.Py4JException: Method newAPIHadoopFile([class org.apache.spark.api.java.JavaSparkContext, class java.lang.String, class java.lang.String, class java.lang.String, class java.lang.String, class java.util.HashMap, null, class java.util.HashMap, class java.lang.Integer]) does not exist

我认为这是因为一些错误的配置设置,而不是特别是因为命令中的错误。 此外,JAVA_HOME设置在终端环境中。任何可能出错的想法。

0 个答案:

没有答案