Question

我正在使用HTML Tidy Online（http://infohound.net/tidy/）来整理一些非常古怪且混乱的HTML文件，其中包含一些希伯来字符。每当Tidy处理页面时，即使在设置中更改了编码方法，输出也会将希伯来字符变为乱码。使用不同的设置，我设法使用希伯来字符作为unicode实体获得相同的输出。我用Google搜索可能的解决方案，但没有找到。我有几个想法，但我不确定如何处理它们，如果有的话（也许有人有更好的解决方案）。

我想也许我可以（在处理页面之后）扫描页面中的unicode实体并用相应的希伯来字符替换它们（当然是以系统的方式）。

也许我可以使用HTML Tidy源代码并对其进行修改以适当地输出希伯来字符。这个问题是我怀疑自己是否足够知识，甚至不能开始这样的事情。

Answer 1

我有类似的问题。 UTF-8文档，包含unicode字符。 HTML Tidy将它们转换为HTML实体。这在HTMLTIDY.CFG中修复了它：

char-encoding: utf8
input-encoding: utf8
output-encoding: utf8

希望它有所帮助。

Answer 2

您使用的网站http://infohound.net/tidy/右下方有一个“字符编码”子句。您需要选择utf-8，但首先需要确保页面在测试编辑器中以UTF-8编码。例如，在Notepad ++中，您可以转到Encoding > Convert to UTF-8 without BOM。

由HTML Tidy处理的希伯来字符变成乱码

2 个答案: