是否可以让Pig使用一个映射器处理几个小文件(假设这样做会提高作业的速度)。我们遇到一个问题,hdfs中存在数千个小文件,而pig会创建数百个映射器。 Pig是否提供了解决此问题的简单(完整或部分)解决方案?
答案 0 :(得分:1)
您可以利用这些属性将这些多个文件合并到一个文件中,以便它们由单个地图处理:
此功能适用于PigStorage,无需编写任何自定义加载程序。有关详细信息,请访问here。
HTH
答案 1 :(得分:1)
Hadoop中包含大量小文件的常见方法是将它们聚合为大型序列或Avro文件,而不是使用相应的存储功能来读取它们。 对于Pig和Avro,请查看AvroStorage