Question

软件

我正在使用Pentaho Data Integration 5.4

输入数据＆amp;解释

从文件输入数据（简化，有更多列）：

number       name
1009       ProductA
2150       ProductB
3235       ProductC
           ProductD
           ProductE
1234       ProductF
7765       ProductG
4566       ProductH
           ProductI
9907       ProductJ

问题是我的Excel文件格式xlsx包含合并单元格的数据，而id的值为1..n行csv行

在将该文件转换为id=3之后，下一行（除了第一行）的值丢失了，尽管有一列没有合并（参见示例id=6，sequence）。 / p>

我正在使用步骤Add sequence生成sequence_number，输入按照最初存储在文件中的方式进行排序。

实现目标的步骤

基本上我需要做的是：

查找current_row.sequence_number小于name
将字段sequence_number中的值连接到匹配的行
继续扫描比上次扫描的1..n更高的下一行

如前所述，此类情况可能有number name 1009 ProductA 2150 ProductB 3235 ProductC; ProductD; ProductE 1234 ProductF 7765 ProductG 4566 ProductH; ProductI 9907 ProductJ行值。

预期输出

Analytic Query

我的方法

我相信我能够循环执行此操作，方法是使用LAG(1)并计算name，然后将列Java Script连接为具有空值的一行并丢弃其他列来自null行的值 - 然后在循环中执行此操作（假设这是最大值的20次），但我确实认为这是一个坏主意。

使用例如sequence步骤从当前向后扫描行（基于Modified Java Script Value数字）可能有更好的方法来实现此结果，但我不知道这些函数，如果它们确实存在。

如何在没有空行的情况下使用string input = "my,string,separated,by,commas"; string[] groups = input.Split(','); string[] output = groups .Select((x, idx) => x + (idx < groups.Length - 1 ? "," : string.Empty)) .Where(x => x != "") .ToArray();步骤或任何其他有效方式实现此目的，而不使用循环来处理整个文件内容？