问题摘要 - 在int中搜索csv字符串中元素的逻辑组合,其中包含100s :(所有数据都存储在HDFS中,以便使用Java M / R进行处理)
示例 -
input string - 5,7,1,19001,234567,123 (unsorted csv list)
在输入字符串中搜索逻辑AND / OR的这些组合 -
123 and 1
19001 or 1 or 7
整体情境 -
我有一个输入数据集,每天有超过1亿条记录作为HDFS文件。输入文件有一个名为InputIds的列,它是一个长整数的csv列表。
所以一行看起来像(我将第4列称为inputIds)
1\t2\t3\t45679,7890,1234567\t90\t100\t101.0.
现在我们有一个系统,用户可以在其中创建搜索字符串来搜索输入数据。 像 -
这样的东西userCreatedID1 - 7890 and 101
userCreatedID2 - 7890 or 90
所以在每一行的InputIds中搜索所有UserCreatedIds。
由于