我正在使用Hadoop map-reduce程序,我希望将该文件的一部分表示为键。我想用它做一些分析。但是我发现这带来了性能。任何人都可以告诉我们是否有任何替代方法可以使用大块文本。我们可以用任何其他格式对其进行编码。我还发现通过将字符串转换为字节或二进制格式。但我仍然无法将其存储在整数数据类型中。我尝试将它转换为BigInteger但是徒劳无功,因为在减少不相似的文本时也会发生冲突。除了使用Text数据类型之外,如何将大块文本表示为mapper中的键。
答案 0 :(得分:0)
你的文件部分可以有多长时间?彼此的钥匙有多相似?您是否考虑过使用文本的MD5哈希(或类似)作为映射器中的键?