如何对html和xml进行拼写检查?

时间:2011-04-06 13:08:12

标签: xml bash spell-checking hunspell

我必须对大量的大型html和xml文档(超过30.000)进行拼写检查。我还需要自定义字典和复杂的检查算法。我尝试使用BASH + linux实用程序(sedgrep,...)和hunspell。 Hunspell具有选项-H,强制它将文档检查为HTML(对于XML,该选项也适用)。但是有一个问题:它输出偏移而不是行数也可以逐行检查,因为在这种情况下它看起来在标签内部(他找不到封闭标签)。 那么完成任务的正确方法是什么?

2 个答案:

答案 0 :(得分:7)

我刚才有一个similar problem。您应该能够通过使用那些未记录的开关获得良好的输出,例如-u-U。但要小心,因为这些功能现在似乎是实验性的,我只是通过查看hunspell的来源才发现它们的存在。

基本上是这样的:

hunspell -H -u my-file.html

应该这样做。

或者,也可以使用开关-u1-u2-u3

答案 1 :(得分:1)

您是否尝试过使用tidy

我没有在如此高数量的文件上使用它,但它可以在100多个HTML页面中查找问题。您也可以在XML文件上使用它,并且能够接受具有许多我尚未探索过的选项的配置文件。