我需要每8小时将数据从Hadoop(内部部署的Hortonworks群集)加载到Azure Data Lake。您能告诉我 - 在实施解决方案时可以尝试的不同方法是什么?
谢谢, 阿拉汶
答案 0 :(得分:1)
我们在this link提供了高级选项。搜索:“存储在内部部署或IaaS Hadoop集群中的数据”。
但是,需要进行微调,具体取决于: 1.您想要移动多少数据,文件数量,文件大小等。 较小尺寸的文件传输时间较长。 2.从onprem到Azure的网络连接 如果您有ExpressRoute,您将获得更好的体验。如果您只有公共互联网连接,那么您将受到网络的瓶颈,而不是您使用的工具。
谢谢, 萨钦谢思 Azure Data Lake项目经理。