使用Unix< grep | cat vs Hadoop进行搜索

时间:2015-03-17 08:44:45

标签: unix hadoop

为什么我会使用hadoop在多个大文件中搜索字符串,而不是使用开箱即用的unix工具,如split,grep和cat?

由于 阿希什

1 个答案:

答案 0 :(得分:0)

Hadoop旨在搜索多个文件并合并结果。提到的其他工具不会这样做(没有很多工作)。特别是,由于Hadoop在 parallel 中执行此操作(跨多个服务器),这意味着必须使用支持并行性的某种语言来完成“大量工作”。 Python可以用于ad hoc原型,但可能不是与split,grep和cat相当的工具,比如bash(除非你大幅减少了需求)。