我是大数据新手,我想问一下,我该如何选择合适的数据提取工具?
我找到了一个流行的大数据提取工具列表:https://www.predictiveanalyticstoday.com/data-ingestion-tools/但是每个人听起来都像我一样......当我有这么大的选择时,我怎么选择?我不想只选择一些因为它很受欢迎...我尝试过Sqoop和Flume,我可以看到它们之间的区别(批量与流)。但是还有更多工具......
答案 0 :(得分:1)
我认为摄取工具的选择可能取决于以下因素:
您分享的链接中提到的某些工具也应具有重叠功能。
我一直致力于创建数据管道,我们选择Flume作为我们的要求,因为在我们的情况下,源是以压缩格式发送数据(Chunked Transfer Encoding),我找不到任何工具带有这个连接器。所以,我最终为此目的定制了Flume(即编写自定义源代码)。
此外,我的案例中的转换是一个简单的过滤,因此Flume的可选拦截器组件在此处起作用。
最后,我必须将数据发送到Kafka集群,以便Flume中的Kafka Sink / Kafka Channel组件满足此要求。
作为一个简单的Java进程,它帮助我们在基础架构方面保持简单,即只部署一个虚拟机就足够了。
您可能会在搜索中遇到this link,但我还是想分享它。它讨论了一些你可能会觉得有用的设计模式(我们最终使用了Flume / Kafka aka Flafka模式)。
可能值得深入了解您的要求是什么。
我希望这会有所帮助。