创建一个脚本以使用python 3捕获网页上的链接

时间:2016-07-18 14:50:14

标签: python python-3.x hyperlink try-catch webpage

我必须抓住此页面中主题的所有链接:https://www.inforge.net/xi/forums/liste-proxy.1118/

我尝试过这个脚本:

import urllib.request
from bs4 import BeautifulSoup

url = (urllib.request.urlopen("https://www.inforge.net/xi/forums/liste-proxy.1118/"))
soup = BeautifulSoup(url, "lxml")

for link in soup.find_all('a'):
    print(link.get('href'))

但它会打印页面的所有链接,而不仅仅是我想要的主题链接。你能建议我快速的方法吗?我还是个新手,最近我开始学习python。

1 个答案:

答案 0 :(得分:2)

您可以使用BeautifulSoup来解析HTML:

from bs4 import BeautifulSoup
from urllib2 import urlopen

url= 'https://www.inforge.net/xi/forums/liste-proxy.1118/'
soup= BeautifulSoup(urlopen(url))

然后找到

的链接
soup.find_all('a', {'class':'PreviewTooltip'})