我正在编写MR代码,以便对HBASE和HDFS中可用的数据执行Regex模式匹配。 我的输入文件是一个大型CSV文件,其中包含从HBASE获取唯一数据的密钥。此输入文件可能有重复项。
我的问题 - 在我的Main类中 - 我想读取Input文件并执行一些处理并将数据保存到hashmap中,然后将其提供给mapper类。 在我看过的所有例子中,我们只能输入文件路径作为mapper类的输入, 有没有办法将hashmap输入到mapper而不是文件?
谢谢 Pranay Vyas
答案 0 :(得分:0)
两件事: Map reduce适用于HDFS中的数据。因此,您最好的选择是将地图数据保存为HDFS中的文件,然后转向map reduce。 但是,由于您的数据来自HBase,为什么不使用this,并读取数据并对其执行正则表达式操作。如果我错过了什么,请告诉我