如何配置Apache Flume在特定时间段内从Twitter获取数据?

时间:2013-08-23 06:14:14

标签: twitter hadoop flume data-integration

我有一个hadoop集群和apache flume用于从twitter到HDFS的数据集成,它默认按时间顺序提取数据,就像最近的推文将首先获取同样的,现在我用usecase从twitter获取特定数据特定时期,比如2013年2月。 请告诉我是否有任何配置或属性在水槽或Twitter Handle需要设置。

提前致谢。

1 个答案:

答案 0 :(得分:1)

您可能希望使用定制的水槽来源。

http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-part-2-gathering-data-with-flume/

上述链接中提到的TwitterSource将帮助您根据关键字获取Twitter数据。