在Python IRC bot上工作 - 如何在网站上查询标题?

时间:2012-06-18 20:37:12

标签: python beautifulsoup

这是我目前的代码:

html = urllib.request.urlopen(url)
soup = BeautifulSoup(html)
title = soup.find('title')[7:(title.len()-7)]
return title

事情是,如果我用这个查询维基百科这样的网站,它会崩溃403.我该怎么办呢? (使用python3)

2 个答案:

答案 0 :(得分:4)

维基百科不希望你刮他们的网站。他们拒绝为你服务,因为他们相信你在拼抢,他们是对的。

答案 1 :(得分:0)

Wikipedia有一个可用于抓取其内容的API(Wikipedia API),或者您可以根据实际想要提取的内容下载data