如何使用sed或Perl从xml文件中删除无效字符

时间:2011-10-14 19:10:11

标签: regex perl sed

我想摆脱所有无效的字符;来自使用sed的XML文件的示例hexadecimal value 0x1A 什么是正则表达式和命令行?
编辑
添加了Perl标签,希望获得更多响应。我更喜欢单线解决方案 编辑
这些是有效的XML字符

x9 | xA | xD | [x20-xD7FF] | [xE000-xFFFD] | [x10000-x10FFFF]

4 个答案:

答案 0 :(得分:8)

假设UTF-8 XML文档:

perl -CSDA -pe'
   s/[^\x9\xA\xD\x20-\x{D7FF}\x{E000}-\x{FFFD}\x{10000}-\x{10FFFF}]+//g;
' file.xml > file_fixed.xml

如果要编码坏字节,

perl -CSDA -pe'
   s/([^\x9\xA\xD\x20-\x{D7FF}\x{E000}-\x{FFFD}\x{10000}-\x{10FFFF}])/
      "&#".ord($1).";"
   /xeg;
' file.xml > file_fixed.xml

你可以用几种不同的方式来称呼它:

perl -CSDA     -pe'...' file.xml > file_fixed.xml
perl -CSDA -i~ -pe'...' file.xml     # Inplace with backup
perl -CSDA -i  -pe'...' file.xml     # Inplace without backup

答案 1 :(得分:2)

tr命令会更简单。所以,试试类似:

cat <filename> | tr -d '\032' > <newfilename>

请注意,ascii字符'0x1a'的八进制值为'032',因此我们将其用于tr。不确定tr是否喜欢十六进制。

答案 2 :(得分:0)

尝试:

perl -pi -e 's/[^\x9\xA\xD\x20-\x{d7ff}\x{e000}-\x{fffd}\x{10000}-\x{10ffff}]//g' file.xml

答案 3 :(得分:0)

实际上有一种使用sed的方法,例如:

cat input_file | LANG=C sed -E \
   -e 's/.*/& /g' \
   -e 's/(('\
'[\x9\xa\xd\x20-\x7f]|'\
'[\xc0-\xdf][\x80-\xbf]|'\
'[\xe0-\xec][\x80-\xbf][\x80-\xbf]|'\
'[\xed][\x80-\x9f][\x80-\xbf]|'\
'[\xee-\xef][\x80-\xbf][\x80-\xbf]|'\
'[\xf0][\x80-\x8f][\x80-\xbf][\x80-\xbf]'\
')*)./\1?/g' \
   -e 's/(.*)\?/\1/g' \
   -e 's|]]>|]]>]]<![CDATA[>|g' > output_file

这可以通过四个步骤进行:

  1. 在每行末尾添加一个空格字符。
  2. 替换每个合法字符序列,然后替换任何字符 带有相同的合法字符序列,后跟一个问号 字符(而不是任何字符)。 请注意,在仅合法字符的行中,“。”匹配最后一个 行中的字符,这就是为什么我们在步骤1中添加空格的原因。
  3. 删除该行中的最后一个字符,我们希望这是一个问号。
  4. 将字符串']]>'替换为']]>]]'。

设置LANG = C env变量是为了防止sed本身进行字符集转换-它应将每个字符都视为8位ascii。