我正在使用Django框架在python中开发一个web爬虫。我希望它像网络应用程序一样工作。意味着如果我在两个不同的浏览器选项卡中打开,它们应该单独工作,每个都有自己的数据(已爬网+排队链接)。他们都应该从单独的URL开始抓取并继续他们的工作。
目前我已经设计了非常简单的版本。它在一个选项卡中工作,在另一个浏览器选项卡中不起作用。我甚至尝试打开一个新的镀铬窗口但结果相同。
我不确定我应该为此目的使用什么功能或库。有人能帮助我吗?
答案 0 :(得分:0)
您可以在网址中传递一些密钥:
dpotapi.jar
您可以在不同的选项卡中打开每个网址
Open
或者您可以根据要求发送一些密钥.GET
答案 1 :(得分:0)
我会为您的应用创建默认页面,这是一个接受一个或多个要抓取的网址的表单。
当提交'按下按钮URL列表存储在数据库中,后台进程使用诸如celery之类的东西,通过URL队列工作。
您没有说明如何存储/呈现抓取结果,因此我假设您只想启动抓取并且代码以某种方式存储页面抓取网站 - 没有响应发送到网页。