排序文本文件&删除重复项

时间:2010-07-06 17:53:42

标签: sorting text-files

我有一个包含4位代码的大型文本文件,以及每行中有关它们的一些信息。它看起来像这样:

3456 information
1234 info
2222 Some ohter info

我需要对此文件进行排序,因此代码在文件中按升序排列。此外,一些代码出现不止一次,所以我需要删除重复。我可以使用perl,awk或其他一些脚本语言吗?

提前致谢,

-skazhy

2 个答案:

答案 0 :(得分:4)

sort happybirthday.txt | uniq

来自IBM

Google的第一个结果:unix remove duplicate lines

答案 1 :(得分:0)

您可以创建一个哈希,然后逐行读取文件,并为每行

  • 在第一个空间拆分
  • 检查val(0),即刚拆分的数字是否在哈希
  • 如果没有将val(1),其余部分插入哈希,用密钥val(0)
  • 继续

然后将(已排序的)哈希打印到文件中。