我有来自csv文件的单个输入流。该流来自用户表,其中用户可以用不同的ID复制。
我需要清理这个流。 [Name + Surname]的组合始终是唯一的,但我需要在选择之前进行比较,因为我想保留最新的信息并根据其他值的比较创建一个新字段。
我有一个用于选择行的时间戳。
这是输入流的示例:
这是我想要的输出的一个例子: 什么工具最适合这项任务?
提前致谢。
答案 0 :(得分:2)
这应该可以在pentaho水壶中进行一些排序和分组。
答案 1 :(得分:2)
您可以执行以下操作:
你应该注意的另一件事,但更通用的是 - 那里有一个名为 Memory Group by 的步骤,它可以节省分组前分拣的昂贵计算时间,但是只有当你能确保通过它的数据不会溢出内存,即小数据集时,步骤才是好的。