是否可以将火花流保存在相同的hdfs文件中?

时间:2019-05-13 10:33:44

标签: apache-spark hdfs spark-streaming

我正在使用nc -lk 9999进行流传输,并且DStreams保存在不同的文件夹和不同的文件中。我不想分片文件,我想将流保持在同一文件上,并附加它。我怎么能得到它?

import org.apache.spark.sql.SparkSession
import org.apache.spark.SparkConf
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.Seconds

val spark = SparkSession.builder().appName("My App").getOrCreate()
val sc = spark.sparkContext 
val ssc = new StreamingContext(sc, Seconds(5))

val lines = ssc.socketTextStream("myhost",9999)
val palabras = lines.flatMap(x=>x.split(" "))
val pairs = palabras.map(w=>(w,1))
val cuenta = pairs.reduceByKey((a,b)=>a+b)

cuenta.print()
cuenta.saveAsTextFiles("hdfs:///tmp/testFiles/testing.txt")

ssc.start()

非常感谢,问候!

0 个答案:

没有答案