如何从多语言文本中删除单词?

时间:2010-12-03 07:41:24

标签: regex algorithm unicode utf-8

我有两个版本的同一文件(D,比方说),其中包含多语言文字(英语和其他文字):

予。一个用ASCII编码,Unicode代码点表示为字符实体引用(即Unicode字符的形式为& #N,其中N是Unicode十六进制值的十进制等值)

II。另一种是UTF-8编码。

问题1:

我有一个单独的单词列表(以UTF-8和多种语言编码),我必须从文档中删除D.我应该如何处理?

我可以使用正则表达式来清理D吗?对于doc类型的文档,我相信当我构成正则表达式时,我必须为列表中的每个单词指定整个& #N模式。

对于doc type II,任务是否应该更容易,现在我可以直接在正则表达式中指定非英文字符(我的emacs配置为使用这些非英文字体)?

问题2:

我收藏了大量此类文件。从这些文档中删除单词的最佳算法应该是什么?查表是直截了当的,但可能是最慢的。我应该通过每个吗?

1 个答案:

答案 0 :(得分:1)

我建议先处理实体,以便两种文件看起来一样。完成移除后,将第一组放回编码形式。