正则表达式在java中剔除'section character'

时间:2010-08-19 17:38:21

标签: java regex non-ascii-characters

我正在运行一系列正则表达式替换(即String.replaceAll调用),以将文本文件中的所有特殊字符转换为XML可解析的特殊字符。例如:

string_out = string_out.replaceAll("&", "&");

我遇到了一个绊脚石,取代了“部分角色”,即这个小曲线:§

首先,我正在vi中进行编辑,因此我甚至无法将字符粘贴在那里,它不是标准或扩展ascii的成员。出于同样的原因,我无法在正则表达式中使用十六进制代码来指定它。

如何为正则表达式替换指定此字符?或者,如果你只是想进入并告诉我已经有一个隐藏在某个地方的功能来进行我手工做的角色转换,那也很酷。

2 个答案:

答案 0 :(得分:4)

Unicode: §
Hex:     0xA7
html:    §
name:    section sign

您可以在latin-1 supplement

中找到它

答案 1 :(得分:0)

你不能简单地使用unicode代码点吗?