当xml标记重复时,如何使用Pentaho从XML中提取数据?

时间:2018-03-15 12:51:00

标签: xml pentaho pentaho-spoon pentaho-data-integration

我从XML中提取数据。因为我有两个具有不同值的重复标签。那么如何在不同的列中获取这些数据呢?

<table>
  <tr>
    <td>A</td>
    <td>B</td>
  </tr>
  <tr>
    <td>A1</td>
    <td>B2</td>
  </tr>
</table>

所以,我想在不同的列中获取这些值。我怎样才能实现这一目标? 任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:1)

困难的部分是制作水壶以了解将结果放在哪一列。

  1. number_format()面板中,将Content定义为“/ table / tr”。这将使PDI按行标记生成。
  2. Loop XPath面板中,定义名为“col1”的第一列,其中Field为“td [1]”,第二列名为“col2”,其中XPath为“td” [2]”。
  3. 如果列号是动态的,则需要元数据注入。

    对于您的信息,XPath复选框不是重复字段,而是指示Kettle选择上一行的值,以防某行中缺少字段。

    enter image description here