Question

蜘蛛从一个页面抓取一些特定的链接。然后，它会在每个页面中搜索youtube链接和名称以将其标识为（页面标题）。它确实找到了我需要的所有链接，但订单是奇数。

蜘蛛从下到上收集所有页面信息。我怎样才能让它从上到下？

我的蜘蛛：http://pastebin.com/5qLKr6ky

输出：http://pastebin.com/j4h4aRMs

开始页面：它在蜘蛛中（我不能发布超过2个链接，因为我是新用户）

我希望输出的顺序与起始页面的顺序相同。

Answer 1

我不知道scrapy，但我知道你可以通过调用reversed来简单地反转python中的列表或其他迭代。

Answer 2

哦，你的意思是你需要生成的Youtube链接按顺序放在起始页上吗？

链接是随机顺序的，因为Scrapy并行发出请求

class ProfessormesserSpider(BaseSpider):

    allowed_domains = ['www.professormesser.com']
    start_urls = ['http://www.professormesser.com/n10-005/free-network-plus/']

    def parse(self, response):
        # extract urls from start page and REMEMBER THEIR ORDER(!!!)
        hxs = HtmlXPathSelector(response)
        for i, link in enumerate(hxs.xpath("//td[@valign='center']/div/descendant::a/@href")):
            # "i" is the link's order
            yield yield Request(url=link, callback=self.parse_item, meta={'i': i})

    def parse_item(self, request):
        order = response.request.meta["i"]
        ...

Answer 3

如果查看其中一个链接页面的页面源，则会包含指向上一个和下一个视频的链接。这些链接具有以下形式：

<div class="entry clearfix">
...
<b>Next:</b> The TCP/IP Model  &gt;&gt;</a><br />
<center><iframe width="640" height="360" src="http://www.youtube.com/embed/lSK1d8fZyEw?rel=0" frameborder="0" allowfullscreen></iframe></center></p>
</div>

因此，您将获取重复的条目（尽管链接不同）。您可能需要开发一个更明确的xpath来过滤掉这些其他链接。

Scrapy反向爬行

3 个答案: