Question

        JavaPairInputDStream<Text, BytesWritable> dStream = jsc.fileStream("/home/suv/junk/sparkInput");

当我运行此代码时，我正在

java.lang.ClassCastException: java.lang.Object cannot be cast to org.apache.hadoop.mapreduce.InputFormat

我无法提及文件流中的输入格式。如何提供此输入格式。这是我得到的方法签名

public <K,V,F extends org.apache.hadoop.mapreduce.InputFormat<K,V>> JavaPairInputDStream<K,V> fileStream(String directory).

在此如何指定输入格式。

Answer 1

浪费了我所有的一天...在scala中写了一个实用程序..

class ZipFileStream {
  def fileStream(path: String, ssc: StreamingContext): JavaPairInputDStream[Text, BytesWritable] = {
    return ssc.fileStream[Text, BytesWritable, ZipFileInputFormat](path)

  }
}

并从java中引用它。任何更好的解决方案都值得赞赏。

Spark文件流语法

1 个答案: