我设置了一个从多个来源接收数据的AWS Kinesis流。我想在EMR中使用MapReduce以多个增量批处理数据。
如何在作业中指定输入源?是否有任何特定的库来处理Kinesis记录?示例代码将非常感谢!
答案 0 :(得分:0)
为了将Kinesis指定为EMR的输入,Amazon为Hive和Pig提供了一个JAR扩展,用于处理迭代和检查点。
对于Hive,示例代码可以在"运行Ad-hoc Hive查询" this tutorial的一部分。存在类似的教程for Pig。