应用错误收集

DOM操作的最佳工具？

时间：2010-01-31 07:25:16

标签： javascript dom serverside-javascript

我正在开发一个网络抓取工具，它将汇总各种网站的数据。我已经开始使用PHP的内置DOM函数，但在遇到一些问题（特别是关于格式错误的标记和字符编码）后，我选择抛弃PHP。我在考虑服务器端Javascript，但我对其他建议持开放态度。如果我使用Javascript，我应该使用哪个解释器？

2 个答案:

答案 0 :(得分：2)

试过Simple HTML DOM Parser了吗？

答案 1 :(得分：1)

Python有一个很好的BeautifulSoup模块，可以在大多数情况下处理损坏的标记。如果页面格式错误，内置的启发式方法不起作用，它还允许使用钩子来预处理HTML。我用BeautifulSoup编写了几十个解析器。

还有html5lib模块更快，也可以解析无效的HTML。

两个模块都有Ruby端口。