我是Flume的新手,有人可以澄清一下这个问题吗?
根据Flume文档,它通过其内置的API提供对各种来源类型的支持。例如:Avro source , Spooling Directory source , Exec source ,Netcat Source , Syslog source.
假设我们要从telnet提取数据,然后我们将Netcat用作源。
那我们将在哪种情况下使用Avro and Thrift sources
?
谢谢。
答案 0 :(得分:1)
通常将两个都用于相同类型的接收器。如两者的文档所述,它指出它们是Flume分层拓扑支持的“一半”。
例如,将netcat(或其他)源放置到Avro接收器,使用Avro源和HDFS接收器设置第二个代理以将所有netcat数据集中到一个统一位置
Refer to the Multiplexing & Consolidation sections in the documentation
Avro通常是首选格式,因为如果将事件写入HDFS,则MapReduce,Spark,Pig,Hive等所有查询引擎都可以轻松读取事件数据