从分页嵌套链接中提取数据

时间:2017-02-08 11:41:19

标签: pagination web-scraping beautifulsoup scrapy scrapy-spider

我有大约17页的IMDb标题的分页列表:the list

该链接的网址格式为http://www.imdb.com/title/tt0111161/?ref_=adv_li_tt

tt0111161 是标题ID。

我想浏览整个列表,并为每个标题转到网址http://www.imdb.com/title/tt0111161/ratings,然后从该页面中提取HTML信息。我怎么能用Scrapy,BeautifulSoup或任何其他方法做到这一点?

1 个答案:

答案 0 :(得分:0)

我试过这种方式: -

from bs4 import BeautifulSoup
import urllib
r = urllib.urlopen('http://www.imdb.com/title/tt0111161/ratings').read()
soup = BeautifulSoup(r)
print soup

注意 - IMDb不允许您废弃其网站。