Hive选择数据时是否保留文件顺序

时间:2019-06-20 04:04:44

标签: apache-spark hadoop hive apache-spark-sql hiveql

如果我按select * from table1;的顺序检索数据,则

文件顺序或随机顺序

1 个答案:

答案 0 :(得分:3)

如果没有ORDER BY,则无法保证订单。

许多进程(映射器)正在并行读取数据,计算拆分之后,每个进程都将根据计算的拆分开始读取一个文件或几个文件。

所有并行进程可以处理不同数量的数据并在不同的节点上运行,每次负载都不相同,因此它们取决于节点负载,网络等因素而开始返回行并在不同的时间完成负载,每个进程的数据量等。

消除所有这些因素,可以提高订单预测的准确性。说,单线程顺序文件读取可能以与文件中相同的顺序返回行。但这不是数据库的工作方式。

同样根据科德的关系理论,the order of columns and rows is immaterial