如何使用Scrapy从网站上抓取地址?

时间:2015-01-26 06:05:07

标签: web-scraping scrapy scrape

我正在使用Scrapy,我需要从给定域的联系我们页面中删除地址。域名是谷歌搜索API提供的结果,因此我不知道网页的确切结构是什么。这种刮刮可能吗?任何例子都会很好。

1 个答案:

答案 0 :(得分:2)

提供一些例子有助于做出更好的答案,但总体思路可能是:

  • 找到“与我们联系”链接
  • 点击链接并提取地址

假设您没有关于您将获得的网站的任何信息。

让我们关注第一个问题。

这里的主要问题是网站的结构不同,严格来说,您无法建立100%可靠的方式来查找“联系我们”页面。但是,你可以“掩盖”最常见的案例:

通过这些内容,您可以为Rules构建一组CrawlSpider

第二个问题并不容易 - 你不知道地址在页面的哪个位置(并且可能在页面上不存在),并且你不知道地址格式。您可能需要深入了解Natural Language ProcessingMachine Learning