Kafka Connect与AWS Hadoop实例的主机托管

时间:2017-01-23 06:24:13

标签: amazon-web-services hadoop apache-kafka hdfs apache-kafka-connect

对于生产类型的设置,其中记录的TB将写入KAFKA主题,使用KAFKA连接的最佳做法是什么?HDFS连接器?

我的kafka实例正在AWS主机名a.b.c.d上运行,我的hadoop namenode在AWS主机名p.q.r.s.上运行为了开发/ POC目的,我们在运行kafka实例的同一个框中保持汇合,即在a.b.c.d. HDFS群集大小为500GB。

但对于群集大小为20-30 TB的生产类型设置,是否建议与KAFKA实例或Namenode框或单独的框保持汇合?在这样的生产案例中,需要多少单独的磁盘大小才能融合?

1 个答案:

答案 0 :(得分:2)

当您说“汇合”时,我假设您的意思是Connect工作人员,因此此评论基于该假设。最可取的做法是尽可能分开服务。独立于NameNode,与代理分开运行工作程序。 Connect worker需要非常少的磁盘空间,因为它们不保存数据(独立模式下的偏移数据除外)。在分布式模式下,您可以弹性地扩展工作人员,因此分离事物对于长期可扩展设置也更好。

对于您的用例,如果您想在同一个框中运行,您确实需要进行基准测试以确保性能可以接受。弄清楚是否可以共同定位是一个咨询问题,需要将您的用例细节提升到可能不适合在线论坛的水平。