使用MapReduce在HDFS中搜索文件

时间:2015-04-27 17:52:04

标签: hadoop mapreduce filesystems distributed distributed-computing

我是Hadoop的新手,想知道如何使用MapReduce在HDFS中搜索指定的文件名?让我们说我有数千TB的图像地图数据,以纬度/经度坐标命名。提供给定的纬度/经度坐标,如何使用MapReduce快速找到该文件?

我四处搜索,发现有一种方法是将它传递给grep:

s/c

但对于许多大数据文件来说这会非常慢。

1 个答案:

答案 0 :(得分:0)

这是我的看法:

  1. 建议不要在HDFS中存储太多文件。请检查此链接:Namenode File No. Limit

  2. 使用MR搜索效率不高。特别是如果您没有对数据进行分区或编制索引。

  3. 使用KeyValue商店或像弹性搜索这样的分布式搜索工具(鉴于我对您的用例的了解有限),您的情况最佳。