pentaho的“获取XML数据”步骤有时无法读取相同的xml文件

时间:2018-05-01 08:23:16

标签: pentaho pentaho-spoon pentaho-data-integration

我正在使用pentaho水壶工具进行ETL工作。在作业中,其中一个步骤(Get XML Data)无法在某个时间读取/解析xml文件。有时相同的XML文件没有抛出任何异常,有时它抛出。错误列表如下所示 -

  • 1)文档第1行出错 file:/// D:/softwares/pdi-ce-6.0.1.0-386/data-integration/UTF-8:The 元素类型“置信度”必须由匹配的结束标记终止 “”。
  • 2)org.dom4j.DocumentException:文档的第-1行出错: 文件过早结束。嵌套异常:文件过早结束。

但是,我在xml文件中找不到任何问题。任何人都可以帮助这个主题吗?

1 个答案:

答案 0 :(得分:0)

我找不到根本原因但得到了解决方案。该步骤正在解析的xml文件位于zip文件中。在解析xml文件之前,java步骤解压缩了zip文件。我没有解压缩zip文件,而是直接解析了zip中的xml文件。这解决了问题,并且没有再次报告任何错误。