使用数据刮擦脚本正确的方法

时间:2015-04-04 05:06:19

标签: php curl automation screen-scraping

我正在玩数据抓取脚本。现在我开始使用PHP / cURL。我有兴趣了解这一点的原因是要了解这些是如何设计来帮助保护我自己的网站免受那些偷偷摸摸的恶意网站。第二个原因是以一种像人类一样的方式设计这些,以避免网站所有者服务器的过度负担。

如果我在现实生活中使用它,只需使用它来自动化我目前已经手动完成的操作但是我不想滥用这个过程,但是我有点懒,所以不要手动操作。

像人一样表演: 1)发送看起来像浏览器的标题。 2)发送代表链接源(页面序列)的引用者。 3)创建随机化的延迟,类似于人们每页搜索的搜索方式。 4)完成后清除cookie。 (必须了解更多相关信息,不确定cookie如何在网络刮板环境中运行)

如果上面使用的工具正确完成,是否需要IP代理切换?我应该注意其他任何考虑因素吗?还在了解这一点,所以在这一点上只是好奇。

0 个答案:

没有答案