如何使用requests-html获取网页上的所有链接

时间:2020-05-29 22:02:48

标签: python python-3.x python-requests

我是Web解析的新手,想创建一个程序来获取网页上的所有内部和外部链接,我根本不知道该怎么做,而我写的就是这个

from requests_html import *

sss = HTMLSession()
k = sss.get('https://en.wikipedia.org/wiki')
hhh = HTML(html=k.html.html)
print(hhh.find('href'))

我不知道为什么href标记无处不在时为什么显示[] 预先谢谢你

1 个答案:

答案 0 :(得分:0)

您可以使用以下代码获取所有内部和外部链接。该代码将所有相对链接转换为绝对链接。

from requests_html import HTMLSession

base_url = 'https://en.wikipedia.org'
sss = HTMLSession()
k = sss.get('https://en.wikipedia.org/wiki')
links = k.html.absolute_links
print(links)