从网站上刮取链接 - 看不到href

时间:2012-01-25 09:10:46

标签: web-scraping

我想在新西兰惠灵顿拍一些平均房租的表格。惠灵顿的每个郊区都有单独的桌子,每个都在自己的页面上。我遇到的问题是找到每个页面的地址,以便我可以刮掉表格。

以下是我正在处理的http://www.dbh.govt.nz/market-rent?TLA=Wellington&RegionId=9网站的链接。要查找郊区页面的链接,我使用了Google Chrome中的查看页面来源选项。然而,尽管能够点击每个郊区来查看租金表,但html似乎没有提供链接;没有href。

有人可以解释这些是没有href的链接吗?此外,有没有人知道找到每个郊区表的链接的方法?最后,我想在郊区网址列表中使用迭代,并使用python的BeautifulSoup模块提取租金表。

亲切的问候, 亚历

1 个答案:

答案 0 :(得分:1)

你是对的,它们不是“链接”,从这个意义上讲,它们中没有href字段。每个“链接”实际上是<input>类型的submit形式元素。相当有趣(和非标准)的做事方式!

以下是一些了解html表单的地方:

您将能够通过引用父<form>元素为每个郊区表构建完整的http请求,该元素将包含url和提交“方法”(POST或GET),并通过确定请求来自相应<input>元素的每个“链接”的参数。