如何从HTML中提取链接(使用python)

时间:2017-06-20 01:38:15

标签: python html parsing

所以我下载了网页的HTML。我应该从HTML中提取所有链接并输出它们。这是我的代码

f = open('html.py','r')
heb = f.readlines()
arry = []
if 'href' in heb:
    arry = arry.append(href)

    print(arry)

我正在尝试列出链接并输出它,但说实话,我很丢失。有人能指出我正确的方向吗?我认为正则表达式可能是要走的路 感谢

1 个答案:

答案 0 :(得分:2)

您可以使用Beautiful Soup(您需要安装,例如pip install BeautifulSoup4):

import bs4

with open("my-file.html") as f:
    soup = bs4.BeautifulSoup(f)

links = [link['href'] for link in soup('a') if 'href' in link.attrs]