为Hadoop数据仓库设置环境(Hive)

时间:2012-09-25 06:15:01

标签: hive data-warehouse business-intelligence

我是Hadoop的新手,并尝试在数据仓库和分析前端学习它。

有人可以告诉我如何设置我的练习机,特别是关于     1.开始学习所需的机器/节点数量     2.建议在Windows上安装吗?     3.需要安装什么软件     4.测试/样本数据的可用性

此外,我想获得有关使用Hive执行BI操作的最佳方法的建议。

谢谢。

1 个答案:

答案 0 :(得分:0)

如果您对hadoop机器更感兴趣,我建议下载cloudera VM。另一种快速启动的方法 - 使用亚马逊EMR(弹性mapreduce)。可以选择在那里创建交互式配置单元群集,并开始使用存储在S3中的数据集。
关于节点数量 - 它取决于目标。如果你有兴趣“感觉”一些hadoop性能 - 尝试至少4-6个节点。
如果您无法访问组织的内部hadoop / hive集群,则上面列出的两种方法都很好。即使在这种情况下 - 我建议在使用共享环境之前尝试与他们一起实践。