如何使用美丽的汤获取Html文档的所有链接?

时间:2016-03-09 05:47:09

标签: html python-2.7

如何使用bs4获取html文件中的所有链接。 我正在尝试使用此代码,但我没有收到网址

import urllib
import re
from bs4 import BeautifulSoup

url = raw_input('enter - ')
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
tags = soup('a')
for tag in tags:
    print (url+tag.get('href',None))

1 个答案:

答案 0 :(得分:0)

您可以使用urlparse.urljoin;

编辑:要进行重复数据删除,只需在显示之前将它们放入一个集合中。

from bs4 import BeautifulSoup
import urllib
from urlparse import urljoin

urlInput = raw_input('enter - ')
html = urllib.urlopen(urlInput).read()
soup = BeautifulSoup(html)
tags = soup('a')    
urls = set()

for tag in tags:
     urls.add(urljoin(url, tag.get('href')))

for url in urls:
     print url