删除行(以相同的22个字符开头)TAB文本文件

时间:2013-02-21 11:52:59

标签: notepad++

我有一个TAB格式的500 000行文本文件(不同俱乐部成员的地址)(使用空格而不是TAB,所以所有列都在其中)。

有些线几乎相同(只有一列不同 - 一个人可以成为2个俱乐部的成员)。我不关心删除哪个重复行,因为家庭地址是相同的,但我需要删除其中一个。

我可以在EXCEL中找到重复项(TEXT-TO-CELL并删除它们。但是然后丢失文本模式和colums,因为格式不是TAB和CSV格式。

如何在NOTEPAD ++或TEXTPAD中编写和使用正则表达式?

1 个答案:

答案 0 :(得分:0)

我的解决方案:

  1. 在EXCEL中打开文本文件,使用“固定宽度”将其转换为列并添加一些新列。
  2. 使用EXCEL复制一个文件夹并删除这些行
  3. 将文件导出为“CSV(逗号分隔不同)”(而不是“CSV WINDOWS”,因为瑞典字符“åäö”无法保存在此导出中。)
  4. 下载ULTRA EDIT免费测试版
  5. 使用“CSV to FIXED WIDTH”并为每列提供宽度
  6. 删除“;”来自每一栏
  7. 完成!