应用错误收集

我们收到来自众多来源的文本文件，其中包含各种不明的编码，并且必须使它们符合utf8 Unicode（请求不要问为什么......政治）。这意味着替换或删除未分配的编码。更糟糕的是，我们只能使用Linux命令或例程，如grep，awk，sed等。我们尝试过使用iconv，但不能只使用未分配的编码。我们不能使用perl，python，c等（没有支持人员）。目前，我们使用以下命令来隔离违规字符串的行号，但无法隔离，更改和/或删除未分配的字符：

grep -HPn '\p{Cn}' {filename}| cut -f1-2 -d: >> utfmsg.txt

问题是如何只拔出未分配的utf8编码。我们所有的其他尝试都剥夺了超过未分配的值。

从文本文件

0 个答案: