我们可以将输入文件提供给映射器
FileInputFormat.setInputPaths(conf,inputPath);
是否可以将引用传递给内存,例如使用DOM解析器构造的DOM树 解析XML文件后,将其作为Hadoop框架映射函数的输入。
还有哪些其他可能性?
答案 0 :(得分:1)
不,您无法指定基于内存(RAM)的信息。
原因在于,通常Hadoop应用程序将分布在许多物理上分离的系统中。当前版本的Hadoop“only”使用HDFS支持分布式数据...这是一个文件系统。
您可以做的是将DOM解析器添加为映射器的预处理步骤,并简单地将输入测试文件指定为输入。 您可以通过创建自己的FileInputFormat派生来轻松实现。
HTH