我编写了一个程序,该程序可以访问网站并将其抓取以获取必要的内容,并将该数据输出到json文件中。现在,我已经通过抓取一个返回用户代理的网站进行了测试。但是我需要更新该程序才能下载此网页并将其存储在数据库中,然后抓取已下载的网页。但是我不知道该怎么做。对此方法的任何帮助将不胜感激!
最终,它将用于多个网站,并将它们全部存储在一个数据库中,然后将它们全部剪贴以获取必要的数据,但现在我仅在该单个网站上对其进行测试。
from scrapy_splash import SplashRequest
from ..items import GameItem
class MySpider(Spider):
name = 'splash_spider' # Name of Spider
start_urls = ['https://www.whatsmyua.info'] # url(s) #*#
def start_requests(self):
for url in self.start_urls:
yield SplashRequest(url=url, callback=self.parse, args={"wait": 3})
#Scraping
def parse(self, response):
item = GameItem()
for game in response.css("div.top.block"):
item["user_agent"] = game.css("textarea#custom-ua-string.input::text").extract_first()
yield item
最后,应该下载网页,将其保存在数据库中,然后抓取下载的网页并将抓取的数据存储在json文件中。