我最近一直在处理大型文本文件。我已经将它们转换为CSV格式,|
作为quotechar,但我发现有时整个句子在文本文件中重复 - 不一定是一个接一个。句子的长度可以不同。我的目标是从CSV文件中删除重复的句子。澄清一下,它看起来像:
|something irrelevant|,|sentence1|
|something irrelevant|,|sentence2|
|something irrelevant|,|sentence3|
|something irrelevant|,|sentence4|
...
|something irrelevant|,|sentence100,000|
其中一些第二列是重复的。我有一些正则表达式的经验,但我没有看到我可以使用的东西。正则表达式是解决这个问题的正确方法,还是有更好的选择?任何建议都将不胜感激。
答案 0 :(得分:0)
确定。我从文本文件中删除了重复的句子,如下所示:
这可能不是最有效的做事方式,但它很有效,并且很容易贯彻执行。我以前浪费了很多时间编写复杂的正则表达式并在python中乱搞,所以希望这可能会节省一些时间。