Question

在EMR上有没有尝试过的Apache Giraph？

在我看来，在EMR上运行的唯一要求是在作业流配置中添加适当的引导脚本。然后我应该只需要使用标准的Custom JAR启动步骤来启动Giraph Runner，并为我的Giraph程序提供适当的参数。

任何文档/教程或者如果您可以在EMR上与Giraph分享您的经验，我们将非常感激。

Answer 1

是的，我定期在EMR上运行Giraph作业，但我不使用“作业流程”，我手动登录主节点并将其用作普通的Hadoop集群（我只是使用hadoop jar提交作业命令）。

您说得对，您需要添加引导脚本来运行Zookeeper并将Zookeeper详细信息添加到核心站点配置中。我是这样做的：

引导操作 -

Configure Hadoop s3://elasticmapreduce/bootstrap-actions/configure-hadoop --site-key-value, io.file.buffer.size=65536, --core-key-value, giraph.zkList=localhost:2181, --mapred-key-value, mapreduce.job.counters.limit=1200

Run if s3://elasticmapreduce/bootstrap-actions/run-if instance.isMaster=true, s3://hpc-chikitsa/zookeeper_install.sh

zookeeper_install.sh的内容是：

#!/bin/bash
wget --no-check-certificate http://apache.mesi.com.ar/zookeeper/zookeeper3.4./zookeeper3.4.5.tar.gz
tar zxvf zookeeper-3.4.5.tar.gz
cd zookeeper-3.4.5
mv conf/zoo_sample.cfg conf/zoo.cfg
sudo bin/zkServer.sh start

然后将您的Giraph jar文件复制到主节点（使用scp），然后将ssh复制到主节点并使用hadoop jar命令提交作业。

希望有所帮助。

以下是giraph-user邮件列表中的相关邮件主题：

https://www.mail-archive.com/user%40giraph.apache.org/msg01240.html

EMR上的Apache Giraph

1 个答案: