我正在尝试重现this article的结果:我拥有所需的所有原始大数据,并且我创建了tweets
表,但由于某种原因“更复杂的查询“导致大量MR工作,并以No data available
结束。
我正在使用Beeswax及其'查询编辑器。
可能是什么事?
在终端中运行时,查询结果为
MapReduce Jobs Launched:
Job 0: Map: 1 Reduce: 1 Cumulative CPU: 6.83 sec HDFS Read: 274 HDFS Write: 96 SUCCESS
Job 1: Map: 1 Reduce: 1 Cumulative CPU: 3.96 sec HDFS Read: 471 HDFS Write: 0 SUCCESS
Total MapReduce CPU Time Spent: 10 seconds 790 msec
OK
Time taken: 585.312 seconds
,其中0 HDFS写入看起来很可疑。
答案 0 :(得分:0)
很抱歉,大家:事实证明我应该在对表运行任何查询之前将数据加载到表中。