应用错误收集

Kafka Connect与AWS Hadoop实例的主机托管

时间：2017-01-23 06:24:13

标签： amazon-web-services hadoop apache-kafka hdfs apache-kafka-connect

对于生产类型的设置，其中记录的TB将写入KAFKA主题，使用KAFKA连接的最佳做法是什么？HDFS连接器？

我的kafka实例正在AWS主机名a.b.c.d上运行，我的hadoop namenode在AWS主机名p.q.r.s.上运行为了开发/ POC目的，我们在运行kafka实例的同一个框中保持汇合，即在a.b.c.d. HDFS群集大小为500GB。

但对于群集大小为20-30 TB的生产类型设置，是否建议与KAFKA实例或Namenode框或单独的框保持汇合？在这样的生产案例中，需要多少单独的磁盘大小才能融合？

1 个答案:

答案 0 :(得分：2)

当您说“汇合”时，我假设您的意思是Connect工作人员，因此此评论基于该假设。最可取的做法是尽可能分开服务。独立于NameNode，与代理分开运行工作程序。 Connect worker需要非常少的磁盘空间，因为它们不保存数据（独立模式下的偏移数据除外）。在分布式模式下，您可以弹性地扩展工作人员，因此分离事物对于长期可扩展设置也更好。

对于您的用例，如果您想在同一个框中运行，您确实需要进行基准测试以确保性能可以接受。弄清楚是否可以共同定位是一个咨询问题，需要将您的用例细节提升到可能不适合在线论坛的水平。