Question

我正在使用Django框架在python中开发一个web爬虫。我希望它像网络应用程序一样工作。意味着如果我在两个不同的浏览器选项卡中打开，它们应该单独工作，每个都有自己的数据（已爬网+排队链接）。他们都应该从单独的URL开始抓取并继续他们的工作。

目前我已经设计了非常简单的版本。它在一个选项卡中工作，在另一个浏览器选项卡中不起作用。我甚至尝试打开一个新的镀铬窗口但结果相同。

我不确定我应该为此目的使用什么功能或库。有人能帮助我吗？

Answer 1

您可以在网址中传递一些密钥：

dpotapi.jar

您可以在不同的选项卡中打开每个网址

Open

或者您可以根据要求发送一些密钥.GET

Answer 2

我会为您的应用创建默认页面，这是一个接受一个或多个要抓取的网址的表单。

当提交＆＃39;按下按钮URL列表存储在数据库中，后台进程使用诸如celery之类的东西，通过URL队列工作。

您没有说明如何存储/呈现抓取结果，因此我假设您只想启动抓取并且代码以某种方式存储页面抓取网站 - 没有响应发送到网页。