用notepad ++

时间:2016-05-24 12:57:05

标签: regex xml replace utf-8 notepad++

我需要使用notepad ++查找并替换xml文件中的所有未识别字符。我不知道描述那些身份不明的角色的技术术语,可能他们甚至不能被称为角色,所以我附上了一个示例图像:

example case

" string"之间的东西和" / string"是我需要找到的。你知道:它们不能像文字一样被复制,因为它们实际上不是文本,如果我试图在这里复制它,它看起来像这样:

那么如何使用正则表达式从文件中找到所有这些(不包括换行符)和清除(用"空白"替换)?

编辑:编码>>转换为UTF-8不会清除那些

编辑:我上传了一个示例文件,以便更好地说明这里的情况:https://file.io/QsyodE:我需要清除像#34;类型"中那些未识别的内容。字符串,汉字(?)字符之前的字符串。如果您使用纯文本查看器(如记事本)打开文件,则无法看到这些内容,因为它们实际上不是文本(这就是我需要删除它们的原因,因为它们不是文本的原因iTunes不重要的大量XML文件;但是当你用Notepad ++打开它时,你会看到它们。

1 个答案:

答案 0 :(得分:0)

以下内容不会找到é或ü但会找到xEF XBF xBE

\b[xX][0-9a-fA-F]+\b