web-crawler - 如何使用机器人保护（Distil Networks）抓取Crunchbase？

嗯，这可能不是非常正确的答案，也有点迟了，但尝试用fiddler（我最喜欢的）跟踪浏览器，并检查网址，标题，带有蒸馏标签，标题，饼干的Cookie ..你＆＃ 39; ll看到.js请求有查询参数PID = .....

例如：当搜索＆＃34;馏出＆＃34;黄色的collored请求是我得到的一部分。在提琴手.. 接下来，首先请求您看到＆＃34; /trsnsvdstl-ce.js ＆＃34; 如果您检查源代码，那么您可以使用长的PID = ...数字和X-Distil-Ajax标头，也可以在respinse中看到很多cookie包含 D_XXX = 我认为最重要的是，你可以看到参数 p = 如果你提出相同的请求，然后UrlDecode p，你会发现它很有趣，它有很多你的机器参数，比如您在浏览器中使用的工具，分辨率等。它是指纹..

那么，在这一点上，我无法回答更多，只是开始深入研究。此外，有什么帮助很多，但花钱是好的代理人，我不是在谈论自由，缓慢的，我说的是像亚马逊云，你可以设置一个接近程度，所以即使蒸馏也看不到，如果是代理。

所以，那就是现在，抱歉我的英语和好运！：）

如何使用机器人保护（Distil Networks）抓取Crunchbase？

1 个答案: