我有一个如下表:
This is a cat
This is a pet
This is a dog
is
a
is a
is
is a dog
That is a dog
我想得到一个如下表:
This is a cat
This is a pet
This is a dog
That is a dog
基本上删除其他行中已经包含的行(作为子字符串)。
答案 0 :(得分:1)
您可以使用Cross Joiner节点创建所有行的组合(两个输入都来自您的示例)。紧跟着一个String Manipulation节点(可能跟着一个String to Number节点)或一个Java Snippet节点,如果原始文件包含在其中,则可以分配1
或0
。后者是否。之后,您可以基于原始列GroupBy并求和0
/ 1
值。使用Row Filter,您只能在汇总列中保留包含1
的行。
(请注意,由于有了交叉连接器,它可以创建相当大的表。也许Distance measure nodes可以更有效地解决此问题。)
答案 1 :(得分:1)