Google Refine - 在单元格中提取相同的值

时间:2015-08-24 10:02:47

标签: data-manipulation openrefine

我的列中的数据看起来像这样

["Lymore Cottages", "Lymore Cottages", "Lymore Cottages", "Lymore Cottages", "Lymore Cottages", "Lymor Cottages"]

它基本上是多次相同的东西,但由于这些是由用户输入的,它们可能是不同的。如果你注意到最后一个丢失了。

我想要做的是创建一个只包含唯一名称的新列。因此,新专栏将包含" Lymore Cottages,Lymor Cottages"。

我相信这可以通过Google / open Refine实现。我尝试了群集,但这也将所有其他行聚集在一起,而不是每个单元格。 (无论是否有其他20行具有相同的数据,我每行都需要这个)

1 个答案:

答案 0 :(得分:0)

这不是一个编程问题,但是在单元格中分割值removing the duplicates然后重新组合内容的组合可能会有效。

这可能是一种更简单的方法。粗略地说,你可以

分割

    专栏

    上的
  1. Split multi-valued cells...

  2. 使用

    删除括号和引号

    value.replace('[', '').replace(']','').replace('"', '')

  3. 删除重复项

    1. 接下来,Sort... A-Z和Reorder rows permanently

    2. 专栏

      上的
    3. Blank down

    4. 调用Facet by blank并选择True

    5. 来自Remove all matching rows>的
    6. All Edit rows

    7. 重新组装

      1. 在列Transpose cells in rows into columns...

      2. 使用括号和引号使用

        重建字段

        '['+ ' ' + value + ',' + ' ' + cells['Step 7 Field Name'].value + ' ' + ']'