因为我正在处理非常大的文件,所以我在比较它们之前对基础文件和候选文件进行了排序,以查看另一条文件中缺少的行。我这样做是为了避免将记录保存在内存中。排序是使用Linux命令行工具sort进行的。
在我的Perl脚本中,我会查看该行中的字符串是否为lt,gt或eq到另一个文件中的行,并在必要时推进文件中的指针。但是,当我注意到我的字符串比较认为基本文件中的字符串是包含特殊字符的候选文件中的字符串时,我遇到了问题。
是否有一种确定的方法可以确保我的Linux排序和Perl字符串比较使用相同类型的字符串比较器?
答案 0 :(得分:8)
sort
命令使用环境变量LC_ALL
指定的当前语言环境来确定字符的排序顺序。通常,修复排序问题的最简单方法是手动将其设置为C
语言环境,该语言环境将每个8位字节视为单个字符,并通过简单的数值进行比较。在大多数shell中,这可以作为一个单独的命令完成,通过为它添加前缀:
LC_ALL=C sort < infile > outfile
这也将解决其他一些文本处理程序的类似问题。 (例如,我记得在德国人的计算机上处理CSV文件的问题 - 这可以追溯到德国人使用逗号而不是小数点这一事实。将LC_ALL=C
置于相关命令前面也修复了这个问题。)
[编辑] 虽然可以指示Perl将某些字符串视为Unicode,但默认情况下它仍然将输入和输出视为8位字节的流,因此上述方法应该生成一个顺序与Perl的sort()
函数相同。 (感谢Ven'Tatsu这个金块。)