Map Reduce中的字符串包含

时间:2013-09-13 11:20:20

标签: java string search hadoop bigdata

问题摘要 - 在int中搜索csv字符串中元素的逻辑组合,其中包含100s :(所有数据都存储在HDFS中,以便使用Java M / R进行处理)

示例 -

input string - 5,7,1,19001,234567,123 (unsorted csv list)

在输入字符串中搜索逻辑AND / OR的这些组合 -

123 and 1  

19001 or 1 or 7

整体情境 -

我有一个输入数据集,每天有超过1亿条记录作为HDFS文件。输入文件有一个名为InputIds的列,它是一个长整数的csv列表。

所以一行看起来像(我将第4列称为inputIds)

1\t2\t3\t45679,7890,1234567\t90\t100\t101.0.

现在我们有一个系统,用户可以在其中创建搜索字符串来搜索输入数据。 像 -

这样的东西
userCreatedID1 - 7890 and 101 

userCreatedID2 - 7890 or 90

所以在每一行的InputIds中搜索所有UserCreatedIds。

由于

0 个答案:

没有答案