我有一些python scrapers(脚本),我想在云中部署,以便使用某种调度程序或cronjob不时运行它们。问题是我不知道哪个平台可以托管刮刀及其输出给我 P.S:我的脚本是基于Python的,使用BeautifulSoup模块。
答案 0 :(得分:2)
仅使用BeautifulSoup在云上进行报废和部署并不是那么有效,而且维护代码也很困难。
我建议你试试Scrapy模块。如果您不知道如何处理它,那么从他们的文档中学习它。如果你足够舒服,如何使用Scrapy进行刮擦,那么你可以尝试部署它。
最近我做了一个涉及报废超过1000万个数据的项目,当时我真的想将我的代码部署到云端。经过大量研究后,我发现ScrapingHub。
您必须在那里创建一个帐户,然后使用Scrapy设置创建一个项目。免费帐户有1名免费工作人员,只能运行24小时。 只需在那里部署Scrapy蜘蛛,然后启动你的蜘蛛。完成后,您的数据将在那里保存7天,您可以使用json等任何格式下载。