我正在运行一个简单的连接查询
select count(*) from t1 join t2 on t1.sno=t2.sno
然而,它会给出内存不足的异常。
t1
和t2
都采用rcfile
格式聚类并在ssn上排序,每个都有2000万条记录。我有3个数据节点,4 GB内存和2个CPU内核。
我尝试过运行地图连接,但也失败了。
其他配置选项包括:
io.sort.mb- 500 MB
io.sort.factor- 10
fs.memory.size.mb- 500 MB
请告知。