Spark Streaming textFileStream不选择新文件

时间:2019-03-07 11:58:08

标签: scala apache-spark spark-streaming

我正在尝试使用spark-submit命令执行spark流字计数应用程序。我启动了spark程序,当我将新文件复制到本地文件夹路径时,无法识别该文件并且不执行任何操作。在日志中,我发现错误提示,

19/03/03 17:22:17 INFO handler.ContextHandler: Started o.s.j.s.ServletContextHandler@87b5b49{/static/streaming,null,AVAILABLE,@Spark} 19/03/03 17:22:17 INFO streaming.StreamingContext: StreamingContext started 19/03/03 17:22:21 WARN dstream.FileInputDStream: Error finding new files java.lang.NullPointerException

我使用以下命令来提交火花作业,

提交火花--class com.company.stream.WordCounter --master本地[4] /home/workspace/spark/SparkWordCounter.jar

下面是源代码,

val lines = ssc.textFileStream("/home/workspace/spark/data")
val words = lines.flatMap(line => line.split(","))
val pairs = words.map(word => (word, 1))
val wordCount = pairs.reduceByKey(_ + _)
wordCount.print()
ssc.start()
ssc.awaitTermination()

有趣的是,它在Windows中无法正常工作,并且选择了我放置的文件并且程序可以正常工作。

即使我轮询HDFS文件夹路径“ hdfs:/// home / workspace / data ”,该程序也会选择文件并完美读取。但是只有在CentO的本地文件夹路径中不会发生。

0 个答案:

没有答案