Question

我有大约17页的IMDb标题的分页列表：the list

该链接的网址格式为http://www.imdb.com/title/tt0111161/?ref_=adv_li_tt

tt0111161 是标题ID。

我想浏览整个列表，并为每个标题转到网址http://www.imdb.com/title/tt0111161/ratings，然后从该页面中提取HTML信息。我怎么能用Scrapy，BeautifulSoup或任何其他方法做到这一点？

Answer 1

我试过这种方式： -

from bs4 import BeautifulSoup
import urllib
r = urllib.urlopen('http://www.imdb.com/title/tt0111161/ratings').read()
soup = BeautifulSoup(r)
print soup

注意 - IMDb不允许您废弃其网站。

从分页嵌套链接中提取数据

1 个答案: