我有大约17页的IMDb标题的分页列表:the list
该链接的网址格式为http://www.imdb.com/title/tt0111161/?ref_=adv_li_tt
tt0111161 是标题ID。
我想浏览整个列表,并为每个标题转到网址http://www.imdb.com/title/tt0111161/ratings,然后从该页面中提取HTML信息。我怎么能用Scrapy,BeautifulSoup或任何其他方法做到这一点?
答案 0 :(得分:0)
我试过这种方式: -
from bs4 import BeautifulSoup
import urllib
r = urllib.urlopen('http://www.imdb.com/title/tt0111161/ratings').read()
soup = BeautifulSoup(r)
print soup
注意 - IMDb不允许您废弃其网站。