Flume中的Avro和节俭来源

时间:2018-09-26 12:26:35

标签: avro thrift flume flume-ng

我是Flume的新手,有人可以澄清一下这个问题吗?

根据Flume文档,它通过其内置的API提供对各种来源类型的支持。例如:Avro source , Spooling Directory source , Exec source ,Netcat Source , Syslog source.

假设我们要从telnet提取数据,然后我们将Netcat用作源。

那我们将在哪种情况下使用Avro and Thrift sources

谢谢。

1 个答案:

答案 0 :(得分:1)

通常将两个都用于相同类型的接收器。如两者的文档所述,它指出它们是Flume分层拓扑​​支持的“一半”。

例如,将netcat(或其他)源放置到Avro接收器,使用Avro源和HDFS接收器设置第二个代理以将所有netcat数据集中到一个统一位置

Refer to the Multiplexing & Consolidation sections in the documentation

Avro通常是首选格式,因为如果将事件写入HDFS,则MapReduce,Spark,Pig,Hive等所有查询引擎都可以轻松读取事件数据