应用错误收集

不使用文件的Hadoop自定义输入格式

时间：2013-04-23 15:26:41

标签： java hadoop amazon-simpledb elastic-map-reduce

我刚开始使用Hadoop而且我正在努力弄清楚如何使用非文件的其他输入源，即从AWS SimpleDB读取所有行，或者从另一个系统上的REST API读取所有记录。在线的所有内容仅显示如何处理文件或一些选定的数据库。

InputFormat的API看起来相当复杂，所以我试图找出从任何非文件数据源读取数据的最快方法，然后可以使用Amazon的Elastic MapReduce（基于Hadoop）进行MapReduced。我正在使用JAVA编写代码。

谢谢！

1 个答案:

答案 0 :(得分：3)

“最快捷”的方式是使用一些数据汇总工具，例如Flume或Chukwa。您可以使用Twitter API here找到一个关于如何通过Flume收集Twitter数据的非常好的示例。它显示了如何使用Flume将Twitter数据读入您的Hadoop集群，然后使用Hive进行处理。如果需要，您可以编写自己的MR工作。试图为这些东西设计一个自定义的InputFormat真的需要一些工作，我不认为你会在这方面找到很多帮助（除非有人这样做并准备与你分享）。

HTH