我正在运行一个简单的HDFS流Spark作业,它对位于HDFS目录中的文本文件中的单词进行计数。
代码来自this示例。
我注意到wordCounts.print()
行没有输出,即使日志显示检测到新文件。
看the source for the function,似乎我绝对没有得到输出作为'时间'标题不打印。
我在AWS EMR上运行。
知道可能出现什么问题吗?
./spark/bin/spark-submit --class com.rory.sparktest.WordCountStream --deploy-mode client --executor-memory 2G /home/hadoop/SparkStreamingTest2-1.0-bar.jar file:///home/hadoop/streamtest/