如何将Cassandra与Hadoop集成以利用Hive

时间:2015-12-22 07:14:25

标签: hadoop cassandra hive bigdata

我差不多3天在2015年寻找解决方案,将Cassandra集成到Hadoop上,网上的大量资源已经过时或从网上消失,Datastax Enterprise不提供任何免费解决方案这种整合。

这样做有哪些选择?我想使用Hive查询语言从我的Cassandra获取数据,我认为第一步是将Cassandra与Hadoop集成。

1 个答案:

答案 0 :(得分:1)

最简单(也是付费选项)是使用C *的Datastax Enterprise打包和Hadoop + Hive。这提供了Hive表与C *的自动连接和注册,并且如果需要,还包括并设置Hadoop执行平台。 http://www.datastax.com/products/datastax-enterprise

第二种最简单的方法是使用Spark代替。 Spark Cassandra Connector是开源的,允许使用HiveQL访问C *表。这是在Spark上作为执行平台而不是Hadoop运行,但具有类似(如果不是更好)的性能。

通过这个解决方案,我可以站立一个独立的Spark Cluster(因为你没有现有的hadoop infra),然后使用spark-sql-thrift服务器对C *表运行查询。 https://github.com/datastax/spark-cassandra-connector

还有其他选择,但这些是我最熟悉的(和利益冲突通知,也发展:D)