Question

我正在使用spark streaming编写一个简单的消费者程序。我的代码将一些数据保存到文件中，但不保存所有数据。任何人都可以帮我解决这个问题。我不确定我丢失数据的位置。我从kafka主题获取数据然后我从java Bean类应用我的模式。

public class ConsumerFile {
public static void main(String[] args){
Logger.getLogger("org").setLevel(Level.OFF);
Logger.getLogger("akka").setLevel(Level.OFF);
String topic = args[0];
final String path=new String(args[2]);
String broker = args[1];
SparkConf sparkConf = new SparkConf().setAppName("SparkConsumer").setMaster("local[*]");;
    JavaStreamingContext ssc = new JavaStreamingContext(sparkConf, Durations.seconds(2));
    HashSet<String> topicsSet = new HashSet<String>(Arrays.asList(topic.split(",")));

    HashMap<String, String> kafkaParams = new HashMap<String, String>();

    kafkaParams.put("metadata.broker.list", broker);
    JavaPairInputDStream<String, String> kafkaStream = KafkaUtils.createDirectStream(
    ssc, String.class, String.class,StringDecoder.class,StringDecoder.class,kafkaPrams,
topicsSet
);

JavaDStream<String> words = kafkaStream.map(new Function<Tuple2<String, String>, String>() 

                                         {
                   public String call(Tuple2<String, String> message)

                                             {
                                                 return message._2();}});
words.foreachRDD(
          new Function2<JavaRDD<String>, Time, Void>() {
       public Void call(JavaRDD<String> rdd, Time time) {
   SQLContext sqlContext = JavaSQLContextSingleton.getInstance(rdd.context());
              // Convert RDD[String] to RDD[case class] to DataFrame
              JavaRDD<JavaRow> rowRDD = rdd.map(new Function<String, JavaRow>() {
                public JavaRow call(String line) throws Exception{
                String[] fields = line.split(",");
                  JavaRow record = new JavaRow(fields[0], fields[1],fields[2]  );

                  return record;

                }

              });

              DataFrame wordsDataFrame = sqlContext.createDataFrame(rowRDD, JavaRow.class);
              wordsDataFrame.registerTempTable("Data");
              DataFrame wDataFrame = sqlContext.sql(" select * from Data");  
              if(!wDataFrame.rdd().isEmpty()){
             wDataFrame.rdd().coalesce(1,true,null).saveAsTextFile(path); }
              return null;
            }} );
ssc.start();
 ssc.awaitTermination();}

}

Answer 1

这可能是因为你没有指定写作模式。而是使用它，

df.write.mode('append').text("/path/to/file")

P.s：我不习惯在java中这样做，我给的是一个scala / python等价物

Answer 2

val sqlContext = new HiveContext(sc)
val df = sqlContext.sql("select * from tableName)
df.write.text("/path/to/file")

它将被编写为分区文本文件，因此您将在一堆标记为part-00000的文件中间隔开您的结果，但它会在那里。

Answer 3

我发现为什么会这样做，以防其他人遇到同样的问题。当你执行foreachRDD时，它基本上在DStream的每个RDD上执行你的函数，你将它全部保存到同一个文件中。因此，他们会覆盖彼此的数据，并且第一个或最后一个作者获胜。最简单的解决方法是将它们保存在具有唯一名称的文件中。所以我使用了saveAsTextFile（path + time（）。milliseconds（）。toString（））并修复了问题。但是，你可以有两次相同的时间戳，所以我通过添加一个随机数使其更加独特。

如何将spark sql查询的所有输出保存到文本文件中

3 个答案: