Question

我必须对大量的大型html和xml文档（超过30.000）进行拼写检查。我还需要自定义字典和复杂的检查算法。我尝试使用BASH + linux实用程序（sed，grep，...）和hunspell。 Hunspell具有选项-H，强制它将文档检查为HTML（对于XML，该选项也适用）。但是有一个问题：它输出偏移而不是行数也可以逐行检查，因为在这种情况下它看起来在标签内部（他找不到封闭标签）。那么完成任务的正确方法是什么？

Answer 1

我刚才有一个similar problem。您应该能够通过使用那些未记录的开关获得良好的输出，例如-u或-U。但要小心，因为这些功能现在似乎是实验性的，我只是通过查看hunspell的来源才发现它们的存在。

基本上是这样的：

hunspell -H -u my-file.html

应该这样做。

或者，也可以使用开关-u1，-u2和-u3。

Answer 2

您是否尝试过使用tidy？

我没有在如此高数量的文件上使用它，但它可以在100多个HTML页面中查找问题。您也可以在XML文件上使用它，并且能够接受具有许多我尚未探索过的选项的配置文件。

如何对html和xml进行拼写检查？

2 个答案: