我正在尝试在终端中挂起的Python3中的以下代码片段:
requests.get('http://www.ppsfs.com/en/aboutus/company')
我甚至无法用Ctrl + C中断代码,并且必须终止终端窗口。试图在浏览器中访问该网站会产生类似的响应 - 网站无限期加载。
如何处理此问题,跳过此类网站?
提前致谢!
答案 0 :(得分:0)
如果在浏览器中发生同样的事情,那么这是特定于站点的问题。
要在遍历网址列表时跳过这些类型的网站,您需要异步流程。如果您不想深入研究多线程,那么您可以使用Scrapy
where requests are scheduled and processed asynchronously
否则,accepted answer here可能是一个有用的起点。你需要修改sempahore逻辑(我想 - 我还没有深入研究多线程!)。