使用scrapy python爬网NodeJs和AngularJs站点

时间:2017-04-04 13:22:26

标签: python angularjs node.js scrapy

我正在尝试使用scrapy python抓取网站,大多数网站都成功完成但是大多数网站都给出了艰难的时间,因为它们运行在Nodejs和angularjs框架或其他java框架上,scrapy crawler无法从中获取详细信息页面。请在这里我需要你的关注。期待您的最早帮助。

在这里,您可以找到我最初用于测试库的代码。

import scrapy
from selenium import webdriver
from scrapy.http import TextResponse

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = ['https://en-ae.wadi.com/home_entertainment-televisions/?ref=navigation']

    def parse(self, response):
        self.log('i have just visited the ' + response.url)
        yield{
            'product_name'  : response.css('p.description.ng-binding > span::text').extract_first(),
        }

提前致谢。

1 个答案:

答案 0 :(得分:3)

查看splash:这将允许您抓取基于javascript的网站。

您还可以创建自己的下载中间件并使用Selenium:How to write customize Downloader Middleware for selenium and Scrapy?

希望这有帮助。