应用错误收集

提供一些例子有助于做出更好的答案，但总体思路可能是：

假设您没有关于您将获得的网站的任何信息。

让我们关注第一个问题。

这里的主要问题是网站的结构不同，严格来说，您无法建立100％可靠的方式来查找“联系我们”页面。但是，你可以“掩盖”最常见的案例：

关注a标记，其中包含“联系我们”，“联系人”，“关于我们”，“关于”等文字
检查/about，/contact_us和类似的端点，示例：
- http://www.sample.com/contact.php
- http://www.sample.com/contact
按照

contact

about

通过这些内容，您可以为Rules构建一组CrawlSpider。

第二个问题并不容易 - 你不知道地址在页面的哪个位置（并且可能在页面上不存在），并且你不知道地址格式。您可能需要深入了解Natural Language Processing和Machine Learning。