我正在尝试使用pythons scrapy来刮取imdb。但是我无法从页面获得评级信息,如下所示:
我使用以下代码:
from scrapy.spiders import Spider
from scrapy.selector import Selector
from imdb.items import ImdbItem
class ImdbSpider(Spider):
name = "imdb"
allowed_domains = ["imdb.com"]
start_urls = [
"http://www.imdb.com/title/tt0068646/reviews?ref_=%20best",
]
def parse(self, response):
sel = Selector(response)
ratings = sel.xpath('//div[contains(@id,"tn15content")]/div/img')
items = []
for rating in ratings:
item = ImdbItem()
item['rating'] = rating.xpath('/@alt').extract()
items.append(item)
return items
我很抱歉,如果这是一个非常基本的问题,但我对python和网络抓取很新,并且无法弄清楚如何实现,所以有人会指导我吗?
答案 0 :(得分:0)
/
是额外的,请使用:
rating.xpath('@alt').extract_first()