用hadoop MR替换输入文件中的文本

时间:2012-04-24 07:26:07

标签: hadoop mapreduce

我是MR和Hadoop前线的新手。 我写了一个MR,用于在csv文件中找到丢失的内容并且工作正常。 现在我有一个用例,我需要解析一个csv文件并用相关类别对其进行编码。

ex:“11,abc,xyz,51,61,78”,“11,adc,ryz,41,71,38”,.............

现在必须将其替换为“1,abc,xyz,5,6,7”,“1,adc,ryz,4,7,3”,............

这里我正在做10的mod,但会有不同的mod的情况。 数据大小以gb为单位。

我想知道如何为输入替换原位内容。这可以通过MR实现吗?

基本上我没有看到任何文件处理或编写基于hadoop的例子。

此时我不想去HBase或其他数据库工具。

1 个答案:

答案 0 :(得分:1)

您无法替换数据,因为HDFS文件仅附加,无法编辑。
我认为实现目标的最简单方法是将您的数据作为外部表注册到Hive中,并在HQL中编写您的trnasformation。
Hive是一个坐在hadoop旁边并将你的查询翻译成MR Jobs的系统。 它的使用并不是HBASE使用的严重基础设施决策