查找多个单词中的公共子字符串并将其删除

时间:2018-06-23 17:30:34

标签: bash nlp substring

我在编写脚本时还是很环保,甚至不知道这是否可能。

我有一个包含引理和它们的拐点的词典,我想提取拐点范例。

示例文件(4个制表符分隔的列):

sb. 1   sommer  ;sommer;sommeren;sommerens;sommers;somrene;somrenes;somre;somres
sb. 1   lim ;lim;limen;limens;lims;limene;limenes;lime;limes
vb. 2   spise   ;spise;spis;spist;spiser;spisende;spiste;spises;spistes
adj.    2   sjov    ;sjov;sjove;sjovt

我不知道如何实现这一目标,但是可能的解决方案可能是这两个步骤。

步骤1: 从单词的开头查找与col4中所有单词匹配的col3最长的子字符串。结果是col5中的printet。

sb. 1   sommer  ;sommer;sommeren;sommerens;sommers;somrene;somrenes;somre;somres    som
sb. 1   lim ;lim;limen;limens;lims;limene;limenes;lime;limes    lim
vb. 2   spise   ;spise;spis;spist;spiser;spisende;spiste;spises;spistes spis
adj.    2   sjov    ;sjov;sjove;sjovt   sjov

步骤2: 从col4中所有单词的开头删除col5。结果是col6中的printet。

sb. 1   sommer  ;sommer;sommeren;sommerens;sommers;somrene;somrenes;somre;somres    som ;mer;meren;merens;mers;rene;renes;re;res
sb. 1   lim ;lim;limen;limens;lims;limene;limenes;lime;limes    lim ;;en;ens;s;ene;enes;e;es
vb. 2   spise   ;spise;spis;spist;spiser;spisende;spiste;spises;spistes spis    ;e;;t;er;ende;te;es;tes
adj.    2   sjov    ;sjov;sjove;sjovt   sjov    ;;e;t

0 个答案:

没有答案