应用错误收集

时间：2012-04-24 07:26:07

标签： hadoop mapreduce

我是MR和Hadoop前线的新手。我写了一个MR，用于在csv文件中找到丢失的内容并且工作正常。现在我有一个用例，我需要解析一个csv文件并用相关类别对其进行编码。

ex：“11，abc，xyz，51,61,78”，“11，adc，ryz，41,71,38”，.............

现在必须将其替换为“1，abc，xyz，5,6,7”，“1，adc，ryz，4,7,3”，............

这里我正在做10的mod，但会有不同的mod的情况。数据大小以gb为单位。

我想知道如何为输入替换原位内容。这可以通过MR实现吗？

基本上我没有看到任何文件处理或编写基于hadoop的例子。

此时我不想去HBase或其他数据库工具。

答案 0 :(得分：1)

您无法替换数据，因为HDFS文件仅附加，无法编辑。
我认为实现目标的最简单方法是将您的数据作为外部表注册到Hive中，并在HQL中编写您的trnasformation。
Hive是一个坐在hadoop旁边并将你的查询翻译成MR Jobs的系统。它的使用并不是HBASE使用的严重基础设施决策