扫描WebPage以获取号召性用语项目

时间:2012-01-24 06:50:33

标签: java python web-scraping

给定两个URL,在对第一个URL(URL1)执行某些操作后到达第二个URL(URL2)。

我希望扫描URL1以查找可能导致第二个URL的可能的号召性用语链接/按钮。 [我知道完整的URL以及两个URL的查询参数]

您建议使用哪种方法/工具包作为最佳方法。

1 个答案:

答案 0 :(得分:0)

如果URL1上的所有链接都是静态链接(不是由js / serverside动作生成的),那么你可以使用例如jQuery并使用href(带有动作的表单)属​​性获取所有元素:

$('a[href$="ABC"]')
$('form[action$="ABC"]')

类似的问题:Select <a> which href ends with some string

对于python可能会有用:http://pypi.python.org/pypi/pyquery