学习Apache Drill有哪些知识先决条件?

时间:2013-11-09 10:01:00

标签: apache

我是数据分析/大数据分析的n00b。我目前正在学习统计数据和R.我想了解学习和使用Apache Drill的知识先决条件,以便我可以优化学习计划?

1 个答案:

答案 0 :(得分:2)

Drill仍处于alpha状态,文档非常有限。如果您需要稳定性,Cloudera Impala可能是短期内更好的选择。

您需要学习两件事 - 如何将数据导入Drill可以使用的表单以及如何运行查询。后者很简单 - 学习SQL。

前者更复杂。非常有限的示例使用Twitter的Parquet数据格式中的本地文件,因此这将是一个很好的起点。对于更现实(即分布式)的场景,请了解HDFS(Hadoop分布式文件系统)和Zookeeper,HBase或MongoDB。

警告 - 如果你真的想在一个真正的大数据环境中使用Drill(你不应该使用它,因为它是alpha版本),你会发现这是一个陡峭的学习曲线,需要很多复杂的信息。打破它的好方法可能是:

  • SQL - 尝试SQLite
  • NoSQL数据库 - MongoDB
  • 分布式文件系统 - HDFS
  • 管理分布式环境 - Zookeeper
  • 分布式键值存储 - HBase
  • 实时分布式查询 - Drill或Impala。