一段时间后(python)没有得到结果

时间:2018-06-18 20:06:17

标签: python web block screen-scraping

我试图为我的项目废弃一个大型数据库,但是我发现在废弃相对大量的数据后,我停止接收一些我感兴趣的xml信息。我不确定是不是因为服务器限制了我的访问权限,或者因为它开始刮得太快。

我放了一个"睡觉"刮擦循环之间的界限来克服这一点,但是当我试图获得更多数据时,它不再起作用。 我想这是网络抓取中的一个已知问题,但我对这个领域很新,所以任何建议都会非常有用。

注意:我尝试过请求'有一些免费的代理,但也没有工作(仍然有一些数据丢失)。我还检查了原始网站,它确实有我寻找的数据。

编辑:看起来我丢失的大部分数据都来自于加载速度与其他所有数据一样快的特定属性。所以我想我正在寻找一种方法来判断我正在寻找的xml是否已经加载。

我正在使用lxml和请求。 感谢。

0 个答案:

没有答案