输入到Hadoop中的Mapper

时间:2010-09-15 08:38:19

标签: hadoop

我们可以将输入文件提供给映射器

FileInputFormat.setInputPaths(conf,inputPath);

是否可以将引用传递给内存,例如使用DOM解析器构造的DOM树 解析XML文件后,将其作为Hadoop框架映射函数的输入。

还有哪些其他可能性?

1 个答案:

答案 0 :(得分:1)

不,您无法指定基于内存(RAM)的信息。

原因在于,通常Hadoop应用程序将分布在许多物理上分离的系统中。当前版本的Hadoop“only”使用HDFS支持分布式数据...这是一个文件系统。

您可以做的是将DOM解析器添加为映射器的预处理步骤,并简单地将输入测试文件指定为输入。 您可以通过创建自己的FileInputFormat派生来轻松实现。

HTH