我正在编写一个脚本,只从网页中提取超链接。这就是我到目前为止所做的:
import bs4 as bs
import urllib.request
source = urllib.request.urlopen('http://www.soc.napier.ac.uk/~40009856/CW/').read()
soup = bs.BeautifulSoup(source, 'lxml')
#for paragraph in soup.find_all('p'):
# print(paragraph.string)
for url in soup.find_all('a'):
print(url.get('href'))
我只想要指向其他网页的超链接,而不是指向PDF和电子邮件地址的链接。正如输出中给出的
如何指定仅返回超链接?