apache-spark - Hive选择数据时是否保留文件顺序 - Thinbug

Hive选择数据时是否保留文件顺序

时间：2019-06-20 04:04:44

标签： apache-spark hadoop hive apache-spark-sql hiveql

如果我按select * from table1;的顺序检索数据，则

文件顺序或随机顺序

1 个答案:

答案 0 :(得分：3)

如果没有ORDER BY，则无法保证订单。

许多进程（映射器）正在并行读取数据，计算拆分之后，每个进程都将根据计算的拆分开始读取一个文件或几个文件。

所有并行进程可以处理不同数量的数据并在不同的节点上运行，每次负载都不相同，因此它们取决于节点负载，网络等因素而开始返回行并在不同的时间完成负载，每个进程的数据量等。

消除所有这些因素，可以提高订单预测的准确性。说，单线程顺序文件读取可能以与文件中相同的顺序返回行。但这不是数据库的工作方式。

同样根据科德的关系理论，the order of columns and rows is immaterial。