我是MR和Hadoop前线的新手。 我写了一个MR,用于在csv文件中找到丢失的内容并且工作正常。 现在我有一个用例,我需要解析一个csv文件并用相关类别对其进行编码。
ex:“11,abc,xyz,51,61,78”,“11,adc,ryz,41,71,38”,.............
现在必须将其替换为“1,abc,xyz,5,6,7”,“1,adc,ryz,4,7,3”,............
这里我正在做10的mod,但会有不同的mod的情况。 数据大小以gb为单位。
我想知道如何为输入替换原位内容。这可以通过MR实现吗?
基本上我没有看到任何文件处理或编写基于hadoop的例子。
此时我不想去HBase或其他数据库工具。
答案 0 :(得分:1)
您无法替换数据,因为HDFS文件仅附加,无法编辑。
我认为实现目标的最简单方法是将您的数据作为外部表注册到Hive中,并在HQL中编写您的trnasformation。
Hive是一个坐在hadoop旁边并将你的查询翻译成MR Jobs的系统。
它的使用并不是HBASE使用的严重基础设施决策