在MapReduce中,地图侧连接的要求是:
我有一个简单的PIG脚本:
A = LOAD '/input_01/*.parquet' using parquet.pig.ParquetLoader();
B = LOAD '/input_02/*.parquet' using parquet.pig.ParquetLoader();
C = JOIN A BY id, B BY id;
STORE C into '/output' using parquet.pig.ParquetStorer();
运行此脚本后,控制台输出告诉我这样的 INNER JOIN 会导致 MAP SIDE HASH JOIN 。
但是,据我所知,我的输入数据集并未按特定键排序,而且我不了解分区。
在这种情况下,PIG如何成功进行Map Side Join?谢谢!