我遇到的大多数情况都是数据在HDFS中迁移/迁出的地方。而且我是Hadoop的新手!
但我的要求是在单个JCR兼容的平面文件存储库中移动来自各种源的大型二进制文件。我的问题是
1)Hadoop是从X读取并写入Y(两个非HDFS系统)场景的不错选择吗?
2)任何其他自定义框架或类似Spring批次的东西是否会起到同样的作用?这意味着它只是IO和网络的问题?
答案 0 :(得分:1)
是的,你可以使用hadoop,如果你的X和Y可以处理多个连接,并且如果你并行检索和存储数据将提供更好的性能。
有一个名为sqoop的框架可以更好地满足您的需求。