我正在查看data.seattle.gov数据集,我想知道如何将所有这些大型原始数据发送到hadoop集群。我在azure上使用hadoop。
答案 0 :(得分:0)
在Windows Azure中,您可以将数据集(非结构化数据等)放在Windows Azure存储中,然后从Hadoop集群中访问它
查看博文:Windows Azure上的Apache Hadoop:从Hadoop集群连接到Windows Azure存储:
您还可以从Azure Marketplace获取数据,例如政府数据集等..
答案 1 :(得分:0)
看起来data.seattle.gov是一个独立的数据服务,不是建立在公共云之上。
他们拥有自己的Restful API来进行数据访问。
我认为最简单的方法是将感兴趣的数据下载到您的hadoop集群,或者
到S3然后在Amazon EC2上使用EMR或自己的集群。
如果他们(data.seattle.gov)具有相关的查询功能,您可以根据需要从您的hadoop集群中查询数据,并将数据引用作为输入。只有在这些查询中进行非常严重的数据减少时,它才有效 - 否则网络带宽将限制性能。