每5分钟数据摄取的FLUME

时间:2015-01-20 08:52:58

标签: twitter flume sentiment-analysis

我已经为Twitter Sentiment分析创建了一个项目,它运行良好。这是流程的简要说明:

Twitter - > FLUME每小时数据 - > HDFS - >使用分区的每小时数据的Hive表 - >使用UNIX Script / SQL Loader提取/清理/转换并将数据加载到Oracle表中 - >仪表板的BO / Tableau。

如上所述,唯一的问题是 - 它不是实时的。

我想使用FLUME每5分钟提取一次推文,然后相应地更改工作流程。

我在互联网上做了一些研究,但找不到任何示例/用例,我们可以配置FLUME每5分钟获取一次数据。我可以每1分钟获取数据,但这不是我想做的。

任何指向此问题的指针都非常有用!!

此致 Suddhasatwa

0 个答案:

没有答案