如何使用bs4
获取html文件中的所有链接。
我正在尝试使用此代码,但我没有收到网址
import urllib
import re
from bs4 import BeautifulSoup
url = raw_input('enter - ')
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
tags = soup('a')
for tag in tags:
print (url+tag.get('href',None))
答案 0 :(得分:0)
您可以使用urlparse.urljoin
;
编辑:要进行重复数据删除,只需在显示之前将它们放入一个集合中。
from bs4 import BeautifulSoup
import urllib
from urlparse import urljoin
urlInput = raw_input('enter - ')
html = urllib.urlopen(urlInput).read()
soup = BeautifulSoup(html)
tags = soup('a')
urls = set()
for tag in tags:
urls.add(urljoin(url, tag.get('href')))
for url in urls:
print url