来自亚马逊的EMR常见问题解答:
问:我可以从互联网或Amazon S3以外的其他地方加载数据吗?
是。您的Hadoop应用程序可以从Internet或其他AWS服务的任何位置加载数据。请注意,如果您从互联网上加载数据,则会收取EC2带宽费用。 Amazon Elastic MapReduce还提供基于Hive的DynamoDB数据访问。
从外部(非S3)来源加载数据有哪些规范?围绕此选项似乎缺乏资源,似乎没有以任何形式记录。
答案 0 :(得分:2)
如果你想以“hadoop方式”实现它,你应该在你的数据源上实现DFS,或者将你的源URL的referance放到某个文件中,这将是MR作业的输入。
同时hadoop是关于将代码移动到数据。甚至在S3上的EMR也不是理想的 - EC2和S3是不同的集群。因此,如果数据源在数据中心之外的数据库中很难实现有效的MR处理。
答案 1 :(得分:0)
基本上亚马逊所说的是,通过编程,您可以通过代码访问来自互联网或任何其他来源的任何内容。例如,您可以通过任何基于HTTP的客户端API访问Couch数据库实例。
答案 2 :(得分:0)
我知道java的Cassandra包有一个名为 org.apache.cassandra.hadoop 的源包,当你运行AWS时,它有两个类来从Cassandra获取信息弹性MapReduce。
基本课程:ColumnFamilyInputFormat.java
和ConfigHelper.java
转到 this link 查看我正在谈论的内容的示例。