我刚开始学习大数据,此时,我正在研究Flume。我遇到的一个常见例子是使用一些Java处理推文(来自Cloudera的例子)。
仅出于测试和模拟目的,我可以将本地文件系统用作Flume源吗?特别是一些Excel或CSV文件?我还需要使用一些Java代码,除了Flume配置文件,就像在Twitter提取中一样吗?
此来源是事件驱动还是可轮询?
感谢您的意见。
答案 0 :(得分:4)
我假设您正在使用cloudera沙箱并且正在讨论将文件放在您计划开始使用的水槽代理的本地沙箱上。水槽剂含有:
来源 渠道 宿
这些应位于水槽剂的本地。可用的水槽来源列表在用户指南中:https://flume.apache.org/FlumeUserGuide.html。如果您只想使用tail或cat命令从文件中流式传输数据,则可以使用Exec源。 您还可以使用假脱机目录源将查看新文件的指定目录,并将在新文件出现时解析事件。 好好阅读用户指南。包含您需要的一切。