应用错误收集

我有一个大规模的webscraping项目（第1部分是将300k +单独的数据条目写入网站）。我将来可能不得不做更多这些，一次一个数据输入是不够的。我一直在使用Selenium将数据输入JS站点，而BeautifulSoup则用于解析结果。我看过Selenium Grid，但我不相信这会完成我想要的，因为我不是想让每个实例都执行相同的功能。

我想把那些~300k的单独数据条目分开并将它们分开搜索，例如，一次8个以上。

此时（在Python中）我唯一的选择是设置多个VM并在每个VM中执行我的Python脚本？目前完成刮擦的时间约为30小时。

如何划分webscraping工作量

0 个答案: