我目前正在使用简单的python脚本抓取我们的网站。 基本上,代码如下所示:
urls_to_check = ['site1.example.com', 'site2.example.com']
checked_urls = []
while len(urls_to_check) > 0:
url_to_check = urls_to_check.pop()
current_result = check_url(url_to_check) # Returns info on the page as well as a list of external links found on the page
checked_urls.append(current_result)
for url in current_result.external_links:
urls_to_check.append(url)
此过程运行正常,但速度很慢。因此,我想使用多线程来加快速度。
我发现很多关于使用多线程或多处理的文章,但它们都涉及到一些封闭的事情(for i in range(0,5)
类型的循环),但没有关于移动目标的内容像一个队列。
有人会指向正确的方向吗?