能够随时将URL上传到数据库和应用程序的客户应尽快处理URL。所以我需要定期运行hadoop作业或从其他应用程序自动运行hadoop作业(任何脚本都会识别新链接,为hadoop作业生成数据并运行作业)。对于PHP或Python脚本,我可以设置cronjob,但是运行定期hadoop作业的最佳做法是什么(为hadoop准备数据,上传数据,运行hadoop作业并将数据移回数据库?
答案 0 :(得分:1)
看看Y!的新工作流系统Oozie,它可以根据不同的触发器运行作业。亚历杭德罗在这里提出了一个很好的溢出:http://www.slideshare.net/ydn/5-oozie-hadoopsummit2010
答案 1 :(得分:0)
如果您希望尽快处理网址,您可以一次处理这些网址。我的建议是等待一些链接(或MB链接,或者例如每天10分钟) 并批处理它们(我每天处理,但这些工作需要几个小时)