Python BS4 Scraping Script Timer

时间:2016-11-29 04:26:28

标签: python web-scraping beautifulsoup bs4

我一直在努力让这个网页抓取脚本正常运行,并且我不确定下一步该尝试什么。希望有人知道我应该做什么。

我正在使用BS4,问题是每当URL花费很长时间加载它时会跳过该URL(在高页面加载时间内保留输入文件较少的输出文件)。我一直在尝试添加一个计时器,以便只有在x秒内没有加载时它才会跳过网址。

有人能指出我正确的方向吗?

谢谢!

1 个答案:

答案 0 :(得分:0)

尝试使用多线程或多处理来生成线程,我认为它会为每个请求生成一个线程,如果它花了太长时间,它就不会跳过该URL。