这是我第一次涉足UTF-8的土地。我是一个IIS管理员,所以我从来没有专业地触摸它。我正在努力帮助一位将圣经翻译成非洲语言的传教士,现在需要对大型UTF-8文件进行全局匹配。我们专门针对重音字符进行匹配。
我们在这里使用旧的XP计算机,所以我在VBS中拼凑了一个快速脚本,知道语言已经安装在他们的盒子上。在玩了几分钟之后,看起来VBS正则表达式通过将每个字符分成2个字符来处理UTF-8。为了匹配单个â,我的模式是\ u00c3 \ u00a2。这不应该是\ u00e2?
由于我超出了自己的深度,我想我会寻求一点指导。它几乎看起来像UTF-8只需要这种双重匹配(并且需要UTF-8。)有人能告诉我我正在编码哪个盒子峡谷吗? : - )
下载和安装Perl或Java可能超出了该项目的带宽和技术知识。应该内置该工具。安装了MS Office,因此如果有一些库提供特定支持,则可以选择VBA。也安装了JavaScript,但我不知道版本是什么。
由于
答案 0 :(得分:1)
除非您需要匹配两个或更多连续点(例如,您在正则表达式中有..或...但不是。*),您可以在UTF-8上使用任何ASCII正则表达式库并期望它正常工作。 / p>
诀窍是知道你在找什么。 UTF-8会进行这种字节分解,所以在您熟悉的任何内容中编写正则表达式并将其转换为UTF-8,除非它包含“..”,否则它将起作用。
答案 1 :(得分:0)
PowerShell怎么样?它使用.NET正则表达式库,这是可用的最佳库之一,尤其是对于Unicode支持。