如果我在一台单独的机器上运行Hadoop服务器(伪分布式模式),我是否还需要将这些文件放在我的德鲁伊的conf下? :http://druid.io/docs/latest/configuration/hadoop.html
我看待它的方式:
看起来那些-site.xml文件适用于Hadoop服务器......,而且Druid只能充当Hadoop客户端。所以我不认为德鲁伊需要hdfs-site.xml。
Core-site.xml ...,好的,我可以得到它。我的意思是,德鲁伊需要知道名称节点的IP(hadoop)。
Mapred-site.xml,部分。德鲁伊需要知道mapreduce作业的状态(我想它会将索引委托给Hadoop作为MR作业)。因此,它需要与这些作业跟踪器进行通信,以查看索引是否已完成/失败/正在进行中。为此,它需要Hadoop JT的URL。
然而德鲁伊不需要这个属性" mapreduce.cluster.local.dir",因为它没有积极参与MR工作。
纱线-site.xml中?也许它应该保留,部分。至少提交工作(?)。
HDFS-site.xml怎么样?我认为这可以完全废弃。
能力scheduler.xml?它可以去。
如果我错了,请纠正我。
这些问题/怀疑的产生是因为我对hadoop很新。我的hadoop设置正在运行。伪分布式模式。我还用javascript webhdfs库测试它来编写和读取文件。还尝试过hadoop dist提供的样本MR作业。所以我想我的hadoop设置很好。我在德鲁伊网站上有点不确定,部分原因是该文档并不清楚。
Btw ....我有hadoop 2.7.2 ......虽然德鲁伊使用的hadoop-client库仍然在2.3.0。
我应该将hadoop服务器降级到2.3.0吗?
http://druid.io/docs/latest/operations/other-hadoop.html
Thansk, 拉嘎
答案 0 :(得分:0)
请将mapred-site.xml core-site.xml hdfs-site.xml yarn-site.xml添加到类路径中。 你也不需要降级德鲁伊,与2.7.X一起运作良好。 正如您在doc中看到的,您可以使用多个版本的hadoop。