为什么我会使用hadoop在多个大文件中搜索字符串,而不是使用开箱即用的unix工具,如split,grep和cat?
由于 阿希什
答案 0 :(得分:0)
Hadoop旨在搜索多个文件并合并结果。提到的其他工具不会这样做(没有很多工作)。特别是,由于Hadoop在 parallel 中执行此操作(跨多个服务器),这意味着必须使用支持并行性的某种语言来完成“大量工作”。 Python可以用于ad hoc原型,但可能不是与split,grep和cat相当的工具,比如bash(除非你大幅减少了需求)。