我是数据分析/大数据分析的n00b。我目前正在学习统计数据和R.我想了解学习和使用Apache Drill的知识先决条件,以便我可以优化学习计划?
答案 0 :(得分:2)
Drill仍处于alpha状态,文档非常有限。如果您需要稳定性,Cloudera Impala可能是短期内更好的选择。
您需要学习两件事 - 如何将数据导入Drill可以使用的表单以及如何运行查询。后者很简单 - 学习SQL。
前者更复杂。非常有限的示例使用Twitter的Parquet数据格式中的本地文件,因此这将是一个很好的起点。对于更现实(即分布式)的场景,请了解HDFS(Hadoop分布式文件系统)和Zookeeper,HBase或MongoDB。
警告 - 如果你真的想在一个真正的大数据环境中使用Drill(你不应该使用它,因为它是alpha版本),你会发现这是一个陡峭的学习曲线,需要很多复杂的信息。打破它的好方法可能是: