Spark文件流语法

时间:2015-03-10 11:17:04

标签: apache-spark

        JavaPairInputDStream<Text, BytesWritable> dStream = jsc.fileStream("/home/suv/junk/sparkInput");

当我运行此代码时,我正在

java.lang.ClassCastException: java.lang.Object cannot be cast to org.apache.hadoop.mapreduce.InputFormat

我无法提及文件流中的输入格式。如何提供此输入格式。 这是我得到的方法签名

public <K,V,F extends org.apache.hadoop.mapreduce.InputFormat<K,V>> JavaPairInputDStream<K,V> fileStream(String directory).

在此如何指定输入格式。

1 个答案:

答案 0 :(得分:0)

浪费了我所有的一天...在scala中写了一个实用程序..

class ZipFileStream {
  def fileStream(path: String, ssc: StreamingContext): JavaPairInputDStream[Text, BytesWritable] = {
    return ssc.fileStream[Text, BytesWritable, ZipFileInputFormat](path)

  }
} 

并从java中引用它。 任何更好的解决方案都值得赞赏。