用于将文件摄取到HDFS的Streamsets管道引发误导性的“找不到文件”异常

时间:2018-08-21 08:07:50

标签: streamsets

我们已经设置了Streamsets作业。尽管运行成功,但会引发以下错误:

  

“未知com.streamsets.pipeline.api.StageException:SPOOLDIR_35-   假脱机目录运行器失败。原因   java.nio.file.NoSuchFileException:“

错误是“未找到文件”,但实际上文件已成功处理,仍然引发错误。这是中间发生的,而不是针对正在处理的所有文件。

以下是有关这项工作的背景:

  • 管道从linux边缘节点读取文件并将其摄取 进入HDFS
  • 该错误发生在“阅读”阶段
  • 我们已经在同一条管道上运行了将近两年, 直到上个月左右才看到此问题。与我们无关 流程最近发生了变化。间歇性错误似乎 与最新的StreamSets升级保持一致。
  • 我们处理大约7 通过此管道每2小时发送一次文件,因此每天大约有84个文件, 并且间歇性错误似乎每天发生在1-3个文件上。所有 文件仍在处理到HDFS中。

知道为什么会这样吗?

1 个答案:

答案 0 :(得分:0)

您似乎正在按SDC-9740。请注意/投票/评论此问题,尤其是如果您可以提供更多有助于我们缩小原因的详细信息。它是P1,因此应在下一个版本中对其进行修复。