PIG:地图侧连接如何工作?

时间:2016-06-14 08:14:55

标签: hadoop join mapreduce apache-pig cloudera

在MapReduce中,地图侧连接的要求是:

  • 应以特定方式对数据进行分区和排序。
  • 每个输入数据应划分为相同的分区数。
  • 必须使用相同的密钥进行排序。
  • 特定密钥的所有记录必须位于同一分区中。

我有一个简单的PIG脚本:

 A = LOAD '/input_01/*.parquet' using parquet.pig.ParquetLoader();   
 B = LOAD '/input_02/*.parquet' using parquet.pig.ParquetLoader();

 C = JOIN A BY id, B BY id;

 STORE C into '/output' using parquet.pig.ParquetStorer();

运行此脚本后,控制台输出告诉我这样的 INNER JOIN 会导致 MAP SIDE HASH JOIN

但是,据我所知,我的输入数据集并未按特定键排序,而且我不了解分区。

在这种情况下,PIG如何成功进行Map Side Join?谢谢!

0 个答案:

没有答案