我正在尝试编写一个可以很容易被来自Sql背景的人使用的包装器。我还没有开始这项工作,我想知道我应该采取什么方法。
这是问题陈述 - 如果有人在他们的rdbms数据上写了很多本机Sql并且他们想要切换到hadoop那么就会有很多问题。 Hive已经消除了在hdfs中构建表的主要问题。现在来了查询部分 - 为此我们有不同的框架,但没有一个是完整的 - 比如一个可能很慢而其他可能缺乏功能。例如,有Impala,有Hive QL,但最终用户没有ONE框架。 我打算做这样的事情 - 选择(逗号分隔的列名字符串,tableName).where(filter-expression)....
像Linq for hdfs这样的东西会在下面找出执行select(hive ql或Impala)的最佳方式,做where子句的最佳方法等等。
连连呢?想法?批判?
由于