如何使用机器人保护(Distil Networks)抓取Crunchbase?

时间:2016-11-11 22:06:01

标签: web-crawler scraper

像Crunchbase和Glassdoor这样的网站都受到Distil Networks的保护,有没有办法以编程方式从这些网站获取数据?我正在尝试Scrapy + Splash,但不知怎的,他们能够检测到这一点。还有其他方法可以使您的请求/ javascript验证与浏览器无法区分吗?

1 个答案:

答案 0 :(得分:3)

嗯,这可能不是非常正确的答案,也有点迟了,但尝试用fiddler(我最喜欢的)跟踪浏览器,并检查网址,标题,带有蒸馏标签,标题,饼干的Cookie ..你&# 39; ll看到.js请求有查询参数PID = .....

例如:  enter image description here 当搜索"馏出"黄色的collored请求是我得到的一部分。在提琴手.. 接下来,首先请求您看到" /trsnsvdstl-ce.js " 如果您检查源代码,那么您可以使用长的PID = ...数字和X-Distil-Ajax标头,也可以在respinse中看到很多cookie包含 D_XXX = 我认为最重要的是,你可以看到参数 p = 如果你提出相同的请求,然后UrlDecode p,你会发现它很有趣,它有很多你的机器参数,比如您在浏览器中使用的工具,分辨率等。它是指纹..

那么,在这一点上,我无法回答更多,只是开始深入研究。 此外,有什么帮助很多,但花钱是好的代理人,我不是在谈论自由,缓慢的,我说的是像亚马逊云,你可以设置一个接近程度,所以即使蒸馏也看不到,如果是代理。

所以,那就是现在,抱歉我的英语和好运! :)