我有两种数据 -
1)Schemaless(不完全是无模式的,但随着时间的推移,列不断增加,我们不希望在架构更改时更改加载/发布作业)。此数据现在存储在key-val存储中。密钥数量约为1000.对数约为7亿
2)RDBMS表 - 一组表,每个表都有数百万行。
我需要创建一个数据存储,允许对所有上述数据进行分析(最好使用SQL)。我正在为这个问题找到一些解决方案,并认为喜欢Spark和Apache Drill可以解决这个问题。这是Spark-Shark的正确用例吗?我可以在这个用例中使用哪些其他数据存储/解决方案 - Cassandra? MongoDB的?
感谢。
答案 0 :(得分:0)
作为Drill的贡献者,我会根据Drill的功能提出答案 1.是钻头非常适合无模式文件,它可以即时识别文件架构 2. Drill已具备Query Mongo和HBase的功能。 RDBMS和Cassandra尚未出现,但已出现在路线图中。