使用AWS Kinesis作为EMR MapReduce作业的数据源

时间:2015-04-30 17:05:32

标签: java amazon-web-services mapreduce emr amazon-kinesis

我设置了一个从多个来源接收数据的AWS Kinesis流。我想在EMR中使用MapReduce以多个增量批处理数据。

如何在作业中指定输入源?是否有任何特定的库来处理Kinesis记录?示例代码将非常感谢!

1 个答案:

答案 0 :(得分:0)

为了将Kinesis指定为EMR的输入,Amazon为Hive和Pig提供了一个JAR扩展,用于处理迭代和检查点。

对于Hive,示例代码可以在"运行Ad-hoc Hive查询" this tutorial的一部分。存在类似的教程for Pig