我有两个版本的同一文件(D,比方说),其中包含多语言文字(英语和其他文字):
予。一个用ASCII编码,Unicode代码点表示为字符实体引用(即Unicode字符的形式为& #N,其中N是Unicode十六进制值的十进制等值)
II。另一种是UTF-8编码。
问题1:
我有一个单独的单词列表(以UTF-8和多种语言编码),我必须从文档中删除D.我应该如何处理?
我可以使用正则表达式来清理D吗?对于doc类型的文档,我相信当我构成正则表达式时,我必须为列表中的每个单词指定整个& #N模式。
对于doc type II,任务是否应该更容易,现在我可以直接在正则表达式中指定非英文字符(我的emacs配置为使用这些非英文字体)?
问题2:
我收藏了大量此类文件。从这些文档中删除单词的最佳算法应该是什么?查表是直截了当的,但可能是最慢的。我应该通过每个吗?
答案 0 :(得分:1)
我建议先处理实体,以便两种文件看起来一样。完成移除后,将第一组放回编码形式。