Question

我需要使用open refine来清理大量数据。我对正则表达式很不好，我想不出一种方法来得到我想要的东西，这是在引号之间提取文本字符串，其中包含许多特殊字符，如“'/ \＃@ - 在每个单元格中，它具有相同的格式

标题'：我想要提取'，u'likes'：

任何帮助都将受到高度赞赏！

Answer 1

如果要提取包含大量特殊字符的文本字符串，并且位于引号' '之间，您可以通常这样做：

\'[\S\s]*?\'

在您的情况下，如果您只想从中提取内侧引用：caption': u'text I want to extract', u'likes':，请尝试使用此正则表达式：

(?<=u\')[\V]*?(?=\'\,)

Answer 2

我们设计了OpenRefine，其中包含一些智能功能，可以处理您的等常见情况，而无需使用正则表达式。

另外两种在OpenRefine中处理此问题的好方法。