Web抓取-如何提取URL中链接的类型?

时间:2019-06-19 23:24:36

标签: python web-scraping

我有一个URL列表,我必须从每个URL中提取该URL内的链接,并为每个链接提取该链接的类型(表单,跟踪代码,同一站点上的另一个页面,外部网站等)。

我的问题是:您认为使用Python库是否可行? 如果是,您能给我一个起点吗?

致谢。

1 个答案:

答案 0 :(得分:0)

要正确抓取页面,

  1. 您需要对不同的html和css标签有一定程度的了解 及其逻辑(如果您还不熟悉的话)。

  2. 您需要对您所在页面的DOM有一些了解 尝试抓取,因为每个页面都有不同的结构。对于 那,请打开页面,按F12键(如果使用的是Chrome),然后 选择页面的任何部分,右键单击,然后选择检查 元素。

  3. 一旦您了解了页面的结构,就可以 利用webbrowser,请求和bs4 python库获取 您正在寻找什么。

  4. 如果您还不熟悉使用python进行网络爬虫,我 将强烈推荐此在线图书: https://automatetheboringstuff.com/chapter11/

  5. 说一些如何直接打开几个Google顶部的示例代码 一些输入文本的搜索结果:

    state_focused ="false"