这是我目前的代码:
html = urllib.request.urlopen(url)
soup = BeautifulSoup(html)
title = soup.find('title')[7:(title.len()-7)]
return title
事情是,如果我用这个查询维基百科这样的网站,它会崩溃403.我该怎么办呢? (使用python3)
答案 0 :(得分:4)
维基百科不希望你刮他们的网站。他们拒绝为你服务,因为他们相信你在拼抢,他们是对的。
答案 1 :(得分:0)
Wikipedia有一个可用于抓取其内容的API(Wikipedia API),或者您可以根据实际想要提取的内容下载data。