应用错误收集

这是Spark / Apache Drill的用例吗？

时间：2014-09-18 06:29:23

标签： mongodb apache-spark cassandra apache-drill bigdata

我有两种数据 -

1）Schemaless（不完全是无模式的，但随着时间的推移，列不断增加，我们不希望在架构更改时更改加载/发布作业）。此数据现在存储在key-val存储中。密钥数量约为1000.对数约为7亿

2）RDBMS表 - 一组表，每个表都有数百万行。

我需要创建一个数据存储，允许对所有上述数据进行分析（最好使用SQL）。我正在为这个问题找到一些解决方案，并认为喜欢Spark和Apache Drill可以解决这个问题。这是Spark-Shark的正确用例吗？我可以在这个用例中使用哪些其他数据存储/解决方案 - Cassandra？ MongoDB的？

感谢。

1 个答案:

答案 0 :(得分：0)

作为Drill的贡献者，我会根据Drill的功能提出答案 1.是钻头非常适合无模式文件，它可以即时识别文件架构 2. Drill已具备Query Mongo和HBase的功能。 RDBMS和Cassandra尚未出现，但已出现在路线图中。