我需要知道如何通过Hadoop实现实时分析流量流的解决方案。
输入文件类型为.txt
我建议采取步骤:
通过R分析
平面文件 - > HDFS - >蜂巢 - > [R
非常感谢
Soufiane
答案 0 :(得分:0)
1)如果你的日期已经存储在.txt文件中,那么“hadoop fs -cp”就足够了。 Flume用于流数据。
2)您无需将数据从HDFS传输到Hive。 Hive分析存储在HDFS中的数据:
CREATE TABLE my_table(dummy STRING);
这定义了一个表。
LOAD DATA INPATH'/user/tom/data.txt'INTO table my_table;
这会将您的数据移动到Hive的仓库目录中。由于两个目录都在HDFS上,因此可以即时完成。
3)对于R check http://www.revolutionanalytics.com/