应用错误收集

如果我使用相同的目录进行输入和输出，MR是否会覆盖记录？

时间：2014-12-31 18:04:52

标签： java hadoop mapreduce

我想在MR运行期间过滤掉过时的记录并添加新记录。我打算编写一个映射器，它将从临时目录（新输入）和存储库目录（以前的结果）中读取记录。当映射器运行时，它将使用旧的摄取新的。如果映射器仅写出时间戳小于30天的记录，并且我也使用存储库目录进行输出，新结果是否会覆盖旧结果，有效地添加新内容并删除过时内容？我在Java 1.7中使用了Apache库。

1 个答案:

答案 0 :(得分：1)

会抛出错误。 Hadoop不会输出到现有目录。它总是创建目录。因此，输出目录不能存在。如果是，它将引发错误。我假设您使用的是标准FileOutputFormat或其扩展名。

如果2个Mappers输出相同的键，则减速器的输入是什么？
如果我使用相同的目录进行输入和输出，MR是否会覆盖记录？
如何覆盖Hadoop中的输出目录？
如何为输入和输出使用相同的局部视图？
msxml transform（）可以使用相同的缓冲区进行输入和输出吗？
（C ++）重载运算符＆lt;＆lt; ，如果我不使用endl
Maven + Surefire：覆盖温度和输出目录
如果我运行“ INSERT OVERWRITE LOCAL DIRECTORY'/ opt”，将会删除目录的所有内容吗？
相同变量的输入和输出
我可以对两个项目使用相同的输出目录吗？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？