标签: sorting hadoop mapreduce hive
我们是否可以控制在进行排序时我们可以向减速器发送哪些数据 - 例如。如果您有一个包含10个状态的数据(以及每个状态下的数据)并且您将reducer设置为6然后按状态列进行排序 - 那么我们将无法获得所需的结果,因为我们需要10个不同的文件作为输出数据按状态排序。因此,总数据被分成10个文件,每个文件具有10个状态的数据,这些数据被排序。 我的理解在这里是否正确?我知道分区可以将数据划分为10个不同的状态到单独的目录中,但是它不会被排序,因此我们使用sort by。如果我错了,请纠正我。