我有一个URL列表,我必须从每个URL中提取该URL内的链接,并为每个链接提取该链接的类型(表单,跟踪代码,同一站点上的另一个页面,外部网站等)。
我的问题是:您认为使用Python库是否可行? 如果是,您能给我一个起点吗?
致谢。
答案 0 :(得分:0)
要正确抓取页面,
您需要对不同的html和css标签有一定程度的了解 及其逻辑(如果您还不熟悉的话)。
您需要对您所在页面的DOM有一些了解 尝试抓取,因为每个页面都有不同的结构。对于 那,请打开页面,按F12键(如果使用的是Chrome),然后 选择页面的任何部分,右键单击,然后选择检查 元素。
一旦您了解了页面的结构,就可以 利用webbrowser,请求和bs4 python库获取 您正在寻找什么。
如果您还不熟悉使用python进行网络爬虫,我 将强烈推荐此在线图书: https://automatetheboringstuff.com/chapter11/
说一些如何直接打开几个Google顶部的示例代码 一些输入文本的搜索结果:
state_focused ="false"