从文本文件

时间:2015-07-30 15:42:44

标签: linux unicode awk sed

我们收到来自众多来源的文本文件,其中包含各种不明的编码,并且必须使它们符合utf8 Unicode(请求不要问为什么......政治)。这意味着替换或删除未分配的编码。更糟糕的是,我们只能使用Linux命令或例程,如grep,awk,sed等。我们尝试过使用iconv,但不能只使用未分配的编码。我们不能使用perl,python,c等(没有支持人员)。目前,我们使用以下命令来隔离违规字符串的行号,但无法隔离,更改和/或删除未分配的字符:

grep -HPn '\p{Cn}' {filename}| cut -f1-2 -d: >> utfmsg.txt

问题是如何只拔出未分配的utf8编码。我们所有的其他尝试都剥夺了超过未分配的值。

0 个答案:

没有答案