像搜索引擎一样开发同时支持多个客户端的django应用程序?

时间:2017-05-02 20:16:10

标签: python django web-crawler

我正在使用Django框架在python中开发一个web爬虫。我希望它像网络应用程序一样工作。意味着如果我在两个不同的浏览器选项卡中打开,它们应该单独工作,每个都有自己的数据(已爬网+排队链接)。他们都应该从单独的URL开始抓取并继续他们的工作。

目前我已经设计了非常简单的版本。它在一个选项卡中工作,在另一个浏览器选项卡中不起作用。我甚至尝试打开一个新的镀铬窗口但结果相同。

我不确定我应该为此目的使用什么功能或库。有人能帮助我吗?

2 个答案:

答案 0 :(得分:0)

您可以在网址中传递一些密钥:

dpotapi.jar

您可以在不同的选项卡中打开每个网址

Open

或者您可以根据要求发送一些密钥.GET

答案 1 :(得分:0)

我会为您的应用创建默认页面,这是一个接受一个或多个要抓取的网址的表单。

当提交'按下按钮URL列表存储在数据库中,后台进程使用诸如celery之类的东西,通过URL队列工作。

您没有说明如何存储/呈现抓取结果,因此我假设您只想启动抓取并且代码以某种方式存储页面抓取网站 - 没有响应发送到网页。