如何在客户端脚本中解析html?

时间:2009-07-21 17:19:19

标签: browser scripting screen-scraping

为浏览器创建脚本的最佳方法是什么?

我需要在不同的域上解析一些html页面

我在Windows上并且最常使用firefox。

3 个答案:

答案 0 :(得分:0)

如果仅仅是检索页面以便随意执行任何操作,python中的内置urllib模块将为您完成此操作。

答案 1 :(得分:0)

听起来您想要检索网页并解析它们以提取有意义的数据?我会建议像TagSoup(对于Java)这样的东西,它会触发你可以直接使用的好的SAX事件,或者使用你选择的XML模块(原始DOM,JDOM,dom4j,XOM等等)。 TagSoup页面还列出了许多其他语言的参考文献,比如用于Python的Beautiful Soup,用于Ruby的Rubyful Soup等等。

从那里,我建议使用像XPath这样的东西来检索你想要的数据。另一种选择是XSLT将HTML转换为一种你可以更容易操作的统一格式。

答案 2 :(得分:0)

我推荐Synthetics Web。这是jsFiddle的一个工作示例。

的jsfiddle http://jsfiddle.net/dwayne05/YkLVw/

Synthetics Web http://www.syntheticsweb.com/