如何划分webscraping工作量

时间:2017-04-07 05:31:00

标签: python selenium beautifulsoup virtual-machine

我有一个大规模的webscraping项目(第1部分是将300k +单独的数据条目写入网站)。我将来可能不得不做更多这些,一次一个数据输入是不够的。我一直在使用Selenium将数据输入JS站点,而BeautifulSoup则用于解析结果。我看过Selenium Grid,但我不相信这会完成我想要的,因为我不是想让每个实例都执行相同的功能。

我想把那些~300k的单独数据条目分开并将它们分开搜索,例如,一次8个以上。

此时(在Python中)我唯一的选择是设置多个VM并在每个VM中执行我的Python脚本?目前完成刮擦的时间约为30小时。

0 个答案:

没有答案