用openrefine

时间:2017-10-03 15:50:05

标签: cluster-analysis data-cleaning openrefine

我希望将文字文件中的单词聚类为以下行:

number queries waiting support representatives become available
query numbers 

更具体地说,我想用他们的群集代表替换单词而不更改句子。

我想做的是: 1.将空格中的列拆分为更多列,每列包含1个字/行 2.聚集所有列 3.将列合并回来

但这非常乏味。我想听听一个更简单,也许更优雅的解决方案。

1 个答案:

答案 0 :(得分:5)

一个可能更好的解决方案是为每一行创建一个记录,"拆分多值单元格"按空间,群集,然后按空间连接。

示例:

enter image description here