我使用luigi作为hadoop作业管道。我阅读了示例和文档,但在将作业推送到hadoop服务器之前找不到如何调试脚本?
更具体地说,我需要处理大量数据,并且运行时间很长,我更喜欢在小型测试数据集中测试作业,而不是在真实数据集中运行它。
答案 0 :(得分:1)
据我所知,这不是一件微不足道的事情,因为您要调试的是实际的Hadoop集成。也许有办法模拟或模拟一个hadoop系统......或者只是在你的机器上安装一个最小的hadoop?
我们为群集任务执行类似操作。我们通过一种便捷方法执行命令,该方法允许我们在本地或通过HPC系统切换运行命令,只需切换参数值即可。如果您有兴趣,可以在此处查看此代码: https://github.com/samuell/sciluigi/blob/d403b1d04779fcb9d4d949cd2e554a892c86a67d/sciluigi/slurm.py#L99-L113