配对时删除网页中的特殊错误字符

时间:2012-07-27 07:40:26

标签: parsing character

我有一个网页,上面写着“Alexander Macomb,Junior(1882年4月3日至1841年6月25日)”,1828年5月29日至1841年6月25日是美国陆军的指挥官。“。

这些字符(“?”)已经错误地显示在网页中。顺便说一句,这些字符(“?”)似乎是“ - ”。如何删除/更正此类字符。我的意思是,在阅读/加载网页内容到java或其他编程语言时,有没有办法检测和纠正这些字符。

1 个答案:

答案 0 :(得分:0)

这是一个字符编码问题:某些软件执行了错误的字符代码转换。如果没有关于这种情况的更多细节,比如URL,几乎不可能提出具体的补救措施。但该页面似乎是http://en.wikipedia.org/wiki/Alexander_Macomb_%28general%29的一些扭曲副本,所以也许您可以使用该页面。失真显然包括以某种方式改变EN DASH“ - ”U-2013角色。