我正在使用Scrapy,我需要从给定域的联系我们页面中删除地址。域名是谷歌搜索API提供的结果,因此我不知道网页的确切结构是什么。这种刮刮可能吗?任何例子都会很好。
答案 0 :(得分:2)
提供一些例子有助于做出更好的答案,但总体思路可能是:
假设您没有关于您将获得的网站的任何信息。
让我们关注第一个问题。
这里的主要问题是网站的结构不同,严格来说,您无法建立100%可靠的方式来查找“联系我们”页面。但是,你可以“掩盖”最常见的案例:
a
标记,其中包含“联系我们”,“联系人”,“关于我们”,“关于”等文字/about
,/contact_us
和类似的端点,示例:
contact
,about
等文字的所有链接进行操作
通过这些内容,您可以为Rules
构建一组CrawlSpider
。
第二个问题并不容易 - 你不知道地址在页面的哪个位置(并且可能在页面上不存在),并且你不知道地址格式。您可能需要深入了解Natural Language Processing和Machine Learning。