我在Impala中有一个基本问题。我们知道Impala允许您查询存储在HDFS中的数据。现在,如果一个文件被分成多个块,让我们说一行文本分布在两个块上。在Hive / MapReduce中,RecordReader会处理这个问题。
Impala如何在这种情况下读取记录?
答案 0 :(得分:2)
引用my answer on the Impala user list:
当Impala找到不完整的记录(例如,可能会扫描某些文件格式,如文本或rc文件)时,它将继续从下一个块逐步读取,直到它读取整个记录为止。请注意,这可能需要少量的远程读取和#39; (从远程数据节点读取),但与本应读取的整个块(通常是通过短路读取)相比,这通常是非常小的量。