应用错误收集

如何配置Apache Flume在特定时间段内从Twitter获取数据？

时间：2013-08-23 06:14:14

标签： twitter hadoop flume data-integration

我有一个hadoop集群和apache flume用于从twitter到HDFS的数据集成，它默认按时间顺序提取数据，就像最近的推文将首先获取同样的，现在我用usecase从twitter获取特定数据特定时期，比如2013年2月。请告诉我是否有任何配置或属性在水槽或Twitter Handle需要设置。

提前致谢。

1 个答案:

答案 0 :(得分：1)

您可能希望使用定制的水槽来源。

http://blog.cloudera.com/blog/2012/10/analyzing-twitter-data-with-hadoop-part-2-gathering-data-with-flume/

上述链接中提到的TwitterSource将帮助您根据关键字获取Twitter数据。

如何配置Apache Flume在特定时间段内从Twitter获取数据？
如何使用webserver为窗口配置apache flume代理
如何配置Apache Flume 1.4.0从Twitter获取数据并放入HDFS（Apache Hadoop 2.5版）？
特定时期的Flume twitter数据
可以使用Apache Flume在一段时间内提取推文吗？
无法通过水槽从twitter下载数据
如何为Facebook数据流配置apache flume
试图通过水槽获取推特数据
从twitter获取数据并使用Flume将其加载到hdfs
将Twitter数据从水槽流到Spark以解决分析问题

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？