我在我的服务器上运行了一个python scraper。它需要抓取大量的网址,所以我想让它更快,并决定使用多处理。
问题是,刮擦过程需要很长时间,因此我的borwser连接最终会超时。因此我收到[Errno 32] Broken pipe
错误。
我能做些什么来保持脚本运行?我可以压制错误并让脚本继续吗?如果我抓住它,脚本就会停止,对吧?
我有什么选择?或者我是否必须停止在服务器上运行的耗时脚本中使用多处理?
with Pool(5) as p:
p.starmap(download_slick_slide_html, zip(sndLinkList, repeat(mode), repeat(pathToFF),repeat(pathToBinaries), repeat(dateTime), repeat(scrapedSupplier), repeat(logfile)))
p.close()
p.join()
def download_slick_slide_html(f_snd_link_list, f_mode, f_path_to_ff, f_path_to_binaries, f_date_time,f_scraped_supplier, f_log_file):
# do some downloading here...