Question

我编写了一个程序，该程序可以访问网站并将其抓取以获取必要的内容，并将该数据输出到json文件中。现在，我已经通过抓取一个返回用户代理的网站进行了测试。但是我需要更新该程序才能下载此网页并将其存储在数据库中，然后抓取已下载的网页。但是我不知道该怎么做。对此方法的任何帮助将不胜感激！

最终，它将用于多个网站，并将它们全部存储在一个数据库中，然后将它们全部剪贴以获取必要的数据，但现在我仅在该单个网站上对其进行测试。

from scrapy_splash import SplashRequest
from ..items import GameItem

class MySpider(Spider):
    name = 'splash_spider' # Name of Spider
    start_urls = ['https://www.whatsmyua.info'] # url(s)  #*#

    def start_requests(self):
        for url in self.start_urls:
            yield SplashRequest(url=url, callback=self.parse, args={"wait": 3})
    #Scraping
    def parse(self, response):
        item = GameItem()
        for game in response.css("div.top.block"):
            item["user_agent"] = game.css("textarea#custom-ua-string.input::text").extract_first() 
            yield item

最后，应该下载网页，将其保存在数据库中，然后抓取下载的网页并将抓取的数据存储在json文件中。

下载网页并使用Scrapy进行抓取

0 个答案: