Druid + Hadoop(适用于两种用途,深层存储和索引)

时间:2016-12-10 08:27:15

标签: hadoop druid

如果我在一台单独的机器上运行Hadoop服务器(伪分布式模式),我是否还需要将这些文件放在我的德鲁伊的conf下? :http://druid.io/docs/latest/configuration/hadoop.html

我看待它的方式:

看起来那些-site.xml文件适用于Hadoop服务器......,而且Druid只能充当Hadoop客户端。所以我不认为德鲁伊需要hdfs-site.xml。

Core-site.xml ...,好的,我可以得到它。我的意思是,德鲁伊需要知道名称节点的IP(hadoop)。

Mapred-site.xml,部分。德鲁伊需要知道mapreduce作业的状态(我想它会将索引委托给Hadoop作为MR作业)。因此,它需要与这些作业跟踪器进行通信,以查看索引是否已完成/失败/正在进行中。为此,它需要Hadoop JT的URL。

然而德鲁伊不需要这个属性" mapreduce.cluster.local.dir",因为它没有积极参与MR工作。

纱线-site.xml中?也许它应该保留,部分。至少提交工作(?)。

HDFS-site.xml怎么样?我认为这可以完全废弃。

能力scheduler.xml?它可以去。

如果我错了,请纠正我。

这些问题/怀疑的产生是因为我对hadoop很新。我的hadoop设置正在运行。伪分布式模式。我还用javascript webhdfs库测试它来编写和读取文件。还尝试过hadoop dist提供的样本MR作业。所以我想我的hadoop设置很好。我在德鲁伊网站上有点不确定,部分原因是该文档并不清楚。

Btw ....我有hadoop 2.7.2 ......虽然德鲁伊使用的hadoop-client库仍然在2.3.0。

我应该将hadoop服务器降级到2.3.0吗?

http://druid.io/docs/latest/operations/other-hadoop.html

Thansk, 拉嘎

1 个答案:

答案 0 :(得分:0)

请将mapred-site.xml core-site.xml hdfs-site.xml yarn-site.xml添加到类路径中。 你也不需要降级德鲁伊,与2.7.X一起运作良好。 正如您在doc中看到的,您可以使用多个版本的hadoop。