应用错误收集

如何在Elastic MapReduce中使用外部数据

时间：2012-06-06 16:41:33

标签： elastic-map-reduce

来自亚马逊的EMR常见问题解答：

问：我可以从互联网或Amazon S3以外的其他地方加载数据吗？

是。您的Hadoop应用程序可以从Internet或其他AWS服务的任何位置加载数据。请注意，如果您从互联网上加载数据，则会收取EC2带宽费用。 Amazon Elastic MapReduce还提供基于Hive的DynamoDB数据访问。

从外部（非S3）来源加载数据有哪些规范？围绕此选项似乎缺乏资源，似乎没有以任何形式记录。

3 个答案:

答案 0 :(得分：2)

如果你想以“hadoop方式”实现它，你应该在你的数据源上实现DFS，或者将你的源URL的referance放到某个文件中，这将是MR作业的输入。
同时hadoop是关于将代码移动到数据。甚至在S3上的EMR也不是理想的 - EC2和S3是不同的集群。因此，如果数据源在数据中心之外的数据库中很难实现有效的MR处理。

答案 1 :(得分：0)

基本上亚马逊所说的是，通过编程，您可以通过代码访问来自互联网或任何其他来源的任何内容。例如，您可以通过任何基于HTTP的客户端API访问Couch数据库实例。

答案 2 :(得分：0)

我知道java的Cassandra包有一个名为 org.apache.cassandra.hadoop 的源包，当你运行AWS时，它有两个类来从Cassandra获取信息弹性MapReduce。

基本课程：ColumnFamilyInputFormat.java和ConfigHelper.java

转到 this link 查看我正在谈论的内容的示例。