由HTML Tidy处理的希伯来字符变成乱码

时间:2011-07-28 15:36:14

标签: unicode tidy hebrew htmltidy

我正在使用HTML Tidy Online(http://infohound.net/tidy/)来整理一些非常古怪且混乱的HTML文件,其中包含一些希伯来字符。每当Tidy处理页面时,即使在设置中更改了编码方法,输出也会将希伯来字符变为乱码。使用不同的设置,我设法使用希伯来字符作为unicode实体获得相同的输出。 我用Google搜索可能的解决方案,但没有找到。 我有几个想法,但我不确定如何处理它们,如果有的话(也许有人有更好的解决方案)。

  
      
  1. 我想也许我可以(在处理页面之后)扫描页面中的unicode实体并用相应的希伯来字符替换它们(当然是以系统的方式)。
  2.   
  3. 也许我可以使用HTML Tidy源代码并对其进行修改以适当地输出希伯来字符。这个问题是我怀疑自己是否足够知识,甚至不能开始这样的事情。
  4.   

2 个答案:

答案 0 :(得分:2)

我有类似的问题。 UTF-8文档,包含unicode字符。 HTML Tidy将它们转换为HTML实体。这在HTMLTIDY.CFG中修复了它:

char-encoding: utf8
input-encoding: utf8
output-encoding: utf8

希望它有所帮助。

答案 1 :(得分:0)

您使用的网站http://infohound.net/tidy/右下方有一个“字符编码”子句。您需要选择utf-8,但首先需要确保页面在测试编辑器中以UTF-8编码。例如,在Notepad ++中,您可以转到Encoding > Convert to UTF-8 without BOM