我想要完成的是一个网站,通过抓取或使用网站rss feed从其他网站获取数据,以存储图片路径,故事标题和我的数据库中的文字等内容,以便我可以将它展示在像时尚这样的技术或苦差报告中。
我希望每隔5个小时就会发生这种情况,我希望删除非常旧的东西,我希望所有这一切都能在没有我必须手动完成的情况下发生。我被告知使用带有芹菜的rabbitmq。现在我被建议使用redis。
我昨晚在youtube上观看了一个视频,通过新的圈子训练,发言人在rabbitmq上说了两次而没有用它作为后端,他说如果你从我说的那里得到任何东西,那就得到它。但我也知道人们有时会对堆栈和语言产生偏见。我没有,我只是希望我的项目能够运作。
总结一下我说什么是一种自动执行任务的有效方法,因此他们会抓取图像路径的网站,标题和文本将它们存储在我的数据库中,以便我以后可以使用它并显示它。正如我所说,我希望它类似于苦差事报告或技术报告。
答案 0 :(得分:0)
我发现redis比rabbitmq更有用,更可靠。 我会创建一个django应用程序,芹菜和redis将连接在一起。几个模型存储基本信息,如:网站链接报废,链接,日期和其他你想要的东西。
另外,我建议使用beautiful soup,python requests,如果您提出了大量请求,请尝试考虑将多个代理与多个用户代理一起使用。