我目前正在探索Tera数据Aster(Aster express 6)。我已经浏览了文档和博客,但没有解释查询是如何工作的。 因为它是分布式sql和sql-mr如何获取数据,它们是否在内部生成map reduce工作?
例如,客户表有10条记录,这些记录按哈希(客户ID)分发,并说它们是3个工作者(除了星号数据中的节点),数据在它们之间分成3个记录,每个记录在两个节点上,4个在一个节点。
在SQL中 简单的选择*来自客户;会在这种情况下工作吗?
但在aster数据中此查询有效。
如何从3个节点获取记录?如果正常的sql查询可以fecth记录然后我们为什么需要MapReduce,我们可以使用mutliple子查询来完成任务吗?
如果数据分布在多台机器上,那么mapreduce是处理数据的唯一方法吗?
如果有人解释了这一点,它真的会帮助我!
Pradi
答案 0 :(得分:1)
www.teradata.com/white-paper/Using-SQL-MapReduce-for-Advanced-Analytical-Queries/是由Teradata赞助的白皮书,解释了将MapReduce与SQL结合使用的理由,应该是一个好的开始指出要提高理解力。