Hadoop - 分析网络流量

时间:2014-01-27 14:37:43

标签: r hadoop hive hdfs

我需要知道如何通过Hadoop实现实时分析流量流的解决方案。

输入文件类型为.txt

我建议采取步骤:

  1. 使用talend将平面文件传输到HDFS(水龙头比talend更好吗?)
  2. 将数据从HDFS传输到Hive(但如何)
  3. 通过R分析

    平面文件 - > HDFS - >蜂巢 - > [R

  4. 非常感谢

    Soufiane

1 个答案:

答案 0 :(得分:0)

1)如果你的日期已经存储在.txt文件中,那么“hadoop fs -cp”就足够了。 Flume用于流数据。

2)您无需将数据从HDFS传输到Hive。 Hive分析存储在HDFS中的数据:

CREATE TABLE my_table(dummy STRING);

这定义了一个表。

LOAD DATA INPATH'/user/tom/data.txt'INTO table my_table;

这会将您的数据移动到Hive的仓库目录中。由于两个目录都在HDFS上,因此可以即时完成。

3)对于R check http://www.revolutionanalytics.com/