应用错误收集

在MapReduce中，地图侧连接的要求是：

应以特定方式对数据进行分区和排序。
每个输入数据应划分为相同的分区数。
必须使用相同的密钥进行排序。
特定密钥的所有记录必须位于同一分区中。

我有一个简单的PIG脚本：

 A = LOAD '/input_01/*.parquet' using parquet.pig.ParquetLoader();   
 B = LOAD '/input_02/*.parquet' using parquet.pig.ParquetLoader();

 C = JOIN A BY id, B BY id;

 STORE C into '/output' using parquet.pig.ParquetStorer();

运行此脚本后，控制台输出告诉我这样的 INNER JOIN 会导致 MAP SIDE HASH JOIN 。

但是，据我所知，我的输入数据集并未按特定键排序，而且我不了解分区。

在这种情况下，PIG如何成功进行Map Side Join？谢谢！

PIG：地图侧连接如何工作？

0 个答案: