我必须对大量的大型html和xml文档(超过30.000)进行拼写检查。我还需要自定义字典和复杂的检查算法。我尝试使用BASH
+ linux实用程序(sed
,grep
,...)和hunspell。 Hunspell
具有选项-H,强制它将文档检查为HTML(对于XML,该选项也适用)。但是有一个问题:它输出偏移而不是行数也可以逐行检查,因为在这种情况下它看起来在标签内部(他找不到封闭标签)。
那么完成任务的正确方法是什么?
答案 0 :(得分:7)
我刚才有一个similar problem。您应该能够通过使用那些未记录的开关获得良好的输出,例如-u
或-U
。但要小心,因为这些功能现在似乎是实验性的,我只是通过查看hunspell的来源才发现它们的存在。
基本上是这样的:
hunspell -H -u my-file.html
应该这样做。
或者,也可以使用开关-u1
,-u2
和-u3
。
答案 1 :(得分:1)
您是否尝试过使用tidy?
我没有在如此高数量的文件上使用它,但它可以在100多个HTML页面中查找问题。您也可以在XML文件上使用它,并且能够接受具有许多我尚未探索过的选项的配置文件。