我是Hadoop的新手,并尝试在数据仓库和分析前端学习它。
有人可以告诉我如何设置我的练习机,特别是关于 1.开始学习所需的机器/节点数量 2.建议在Windows上安装吗? 3.需要安装什么软件 4.测试/样本数据的可用性
此外,我想获得有关使用Hive执行BI操作的最佳方法的建议。
谢谢。
答案 0 :(得分:0)
如果您对hadoop机器更感兴趣,我建议下载cloudera VM。另一种快速启动的方法 - 使用亚马逊EMR(弹性mapreduce)。可以选择在那里创建交互式配置单元群集,并开始使用存储在S3中的数据集。
关于节点数量 - 它取决于目标。如果你有兴趣“感觉”一些hadoop性能 - 尝试至少4-6个节点。
如果您无法访问组织的内部hadoop / hive集群,则上面列出的两种方法都很好。即使在这种情况下 - 我建议在使用共享环境之前尝试与他们一起实践。