正则表达式捕获重复的句子

时间:2013-07-13 10:52:55

标签: regex csv text sentence

我最近一直在处理大型文本文件。我已经将它们转换为CSV格式,|作为quotechar,但我发现有时整个句子在文本文件中重复 - 不一定是一个接一个。句子的长度可以不同。我的目标是从CSV文件中删除重复的句子。澄清一下,它看起来像:

|something irrelevant|,|sentence1|  
|something irrelevant|,|sentence2|  
|something irrelevant|,|sentence3|  
|something irrelevant|,|sentence4|  
...  
|something irrelevant|,|sentence100,000|

其中一些第二列是重复的。我有一些正则表达式的经验,但我没有看到我可以使用的东西。正则表达式是解决这个问题的正确方法,还是有更好的选择?任何建议都将不胜感激。

1 个答案:

答案 0 :(得分:0)

确定。我从文本文件中删除了重复的句子,如下所示:

  1. 转换为CSV格式
  2. 导入Excel
  3. 使用现在包含句子的列的Excel中的“删除重复项”功能
  4. 导出为CSV文件
  5. 转换回文字
  6. 这可能不是最有效的做事方式,但它很有效,并且很容易贯彻执行。我以前浪费了很多时间编写复杂的正则表达式并在python中乱搞,所以希望这可能会节省一些时间。