标签: twitter hadoop flume data-integration
我有一个hadoop集群和apache flume用于从twitter到HDFS的数据集成,它默认按时间顺序提取数据,就像最近的推文将首先获取同样的,现在我用usecase从twitter获取特定数据特定时期,比如2013年2月。 请告诉我是否有任何配置或属性在水槽或Twitter Handle需要设置。
提前致谢。
答案 0 :(得分:1)
您可能希望使用定制的水槽来源。
http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-part-2-gathering-data-with-flume/
上述链接中提到的TwitterSource将帮助您根据关键字获取Twitter数据。