我想知道hadoop是否支持文件级锁定?
面对生产批处理作业设置中的问题 -
情景如下:
我必须在我的批处理作业中引用enterprized数据,这些数据会被我无法控制的其他外部应用程序刷新。现在,我的初始作业集运行大约6小时,然后几个连续的作业开始执行。在此之后,我有另一个hadoop作业,它再次引用来自第一组作业引用的相同位置的相同的企业数据。此脚本运行超过4小时,并且由于总共10小时的时间窗口,有可能再次运行刷新作业,首先删除该文件并再次创建它。如果我的第二个作业仍然在第二个refrsnot h期间执行,那么我的作业很可能会失败,因为它找不到该文件,因为刷新作业会被删除。
那么有没有办法使用hadoop中的任何文件lock.machenism来控制它,我们对其他rdbms有什么。
答案 0 :(得分:3)
我们有类似的要求。我们在mysql中创建了一个表来保存文件夹的锁。任何开始的工作都需要获取锁定并检查表并失败或重新安排,如果它运行的任何文件夹已经有锁..但是因此Hadoop中没有锁定机制。