标签: python-3.x amazon-web-services hadoop cloudera-cdh webhdfs
我在aws上运行了一个CDH集群。还有一组服务在连接到ECS集群的不同ec2机器上运行。所有都在一个VPN中。 我使用的用例是将运行在ec2上的外部服务的数据写入CDH hadoop集群。 我试图找到最好的方法。请建议我在python中可能的方法如何实现这一点。
答案 0 :(得分:2)
Apache Hadoop提供WebHDFS,它是HDFS操作的HTTP接口。这允许您使用任何Python HTTP客户端库(例如httplib,urllib或urllib2)来操作HDFS中的文件。实际上,您可以使用任何提供HTTP客户端库的编程语言来访问WebHDFS。
httplib
urllib
urllib2
您还可以使用Pydoop,它提供了Python和HDFS之间更直接的集成。 Pydoop实现使用LibHDFS,它是标准HDFS Java客户端上的C包装器。因此,它将直接使用HDFS RPC协议而不是HTTP。