使用BeautifulSoup和Python 3时,如何找到网页的超链接?

时间:2017-11-30 17:55:15

标签: python python-3.x parsing hyperlink

我正在编写一个脚本,只从网页中提取超链接。这就是我到目前为止所做的:

import bs4 as bs
import urllib.request

source = urllib.request.urlopen('http://www.soc.napier.ac.uk/~40009856/CW/').read()

soup = bs.BeautifulSoup(source, 'lxml')

#for paragraph in soup.find_all('p'):
 #   print(paragraph.string)

for url in soup.find_all('a'):
    print(url.get('href'))

我只想要指向其他网页的超链接,而不是指向PDF和电子邮件地址的链接。正如输出中给出的

如何指定仅返回超链接?

0 个答案:

没有答案