我正在一个场景中工作,我希望广播Spark上下文并在另一侧获取它。有可能以任何其他方式吗?如果没有,有人可以解释原因。
非常感谢任何帮助。
final JavaStreamingContext jsc = new JavaStreamingContext(conf,
Durations.milliseconds(2000));
final JavaSparkContext context = jsc.sc();
final Broadcast<JavaSparkContext> broadcastedFieldNames = context.broadcast(context);
这是我想要实现的目标。 1.我们有一个来自Kafka的XML EVENT。 2.在xml事件中,我们有一个HDFS文件路径(hdfs:localhost // test1.txt) 3.我们使用SparkStreamContext创建DSTREAM并获取xml。使用Map Function我们正在读取每个xml中的文件路径。 4.现在我们需要从HDFS读取文件(hdfs:localhost // test1.txt)。 要读取这个我需要sc.read文件,所以我试图将spark上下文广播到执行程序,以便并行读取输入文件。 目前我们正在使用HDFS读取文件,但是不能并行阅读?
答案 0 :(得分:0)
你不能使用apache spark删除行但是如果你使用spark作为olap引擎来运行SQL查询你也可以检查apache孵化器carbondata它为你提供更新删除记录的支持并且它建立在spark之上