应用错误收集

我有两个版本的同一文件（D，比方说），其中包含多语言文字（英语和其他文字）：

予。一个用ASCII编码，Unicode代码点表示为字符实体引用（即Unicode字符的形式为＆amp; #N，其中N是Unicode十六进制值的十进制等值）

II。另一种是UTF-8编码。

问题1：

我有一个单独的单词列表（以UTF-8和多种语言编码），我必须从文档中删除D.我应该如何处理？

我可以使用正则表达式来清理D吗？对于doc类型的文档，我相信当我构成正则表达式时，我必须为列表中的每个单词指定整个＆amp; #N模式。

对于doc type II，任务是否应该更容易，现在我可以直接在正则表达式中指定非英文字符（我的emacs配置为使用这些非英文字体）？

问题2：

我收藏了大量此类文件。从这些文档中删除单词的最佳算法应该是什么？查表是直截了当的，但可能是最慢的。我应该通过每个吗？