Question

如何使用bs4获取html文件中的所有链接。我正在尝试使用此代码，但我没有收到网址

import urllib
import re
from bs4 import BeautifulSoup

url = raw_input('enter - ')
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
tags = soup('a')
for tag in tags:
    print (url+tag.get('href',None))

Answer 1

您可以使用urlparse.urljoin;

编辑：要进行重复数据删除，只需在显示之前将它们放入一个集合中。

from bs4 import BeautifulSoup
import urllib
from urlparse import urljoin

urlInput = raw_input('enter - ')
html = urllib.urlopen(urlInput).read()
soup = BeautifulSoup(html)
tags = soup('a')    
urls = set()

for tag in tags:
     urls.add(urljoin(url, tag.get('href')))

for url in urls:
     print url

如何使用美丽的汤获取Html文档的所有链接？

1 个答案: