我正在使用nc -lk 9999进行流传输,并且DStreams保存在不同的文件夹和不同的文件中。我不想分片文件,我想将流保持在同一文件上,并附加它。我怎么能得到它?
import org.apache.spark.sql.SparkSession
import org.apache.spark.SparkConf
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.Seconds
val spark = SparkSession.builder().appName("My App").getOrCreate()
val sc = spark.sparkContext
val ssc = new StreamingContext(sc, Seconds(5))
val lines = ssc.socketTextStream("myhost",9999)
val palabras = lines.flatMap(x=>x.split(" "))
val pairs = palabras.map(w=>(w,1))
val cuenta = pairs.reduceByKey((a,b)=>a+b)
cuenta.print()
cuenta.saveAsTextFiles("hdfs:///tmp/testFiles/testing.txt")
ssc.start()
非常感谢,问候!