网页抓取-检测静态网页-python

时间:2020-01-30 09:57:22

标签: python web-scraping

我必须检查很多域名,看看哪个是“停车页面”或真实的网站。

由于我无法(或不会)手动完成此操作,所以我想知道如何在python中进行操作。

在着急进行编码之前,我想利用您的经验并选择正确的库和方法。

  1. 您将用什么来抓取网站?

  2. 最重要的是,如何检测到这只是一个停车网页?

我的想法:

    • 使用请求库
    • 使用beautifulsoup库
    • 同时使用吗?
  1. 由于我不能仅查找特定的关键字,因为有许多不同的托管服务,所以我在考虑对html代码中的行数进行计数,如果数量不多,则可以成为停车网页。

有什么想法吗?

PS:“停车场网页”->创建的网页仅用于指示已使用该域。

0 个答案:

没有答案