当前实现处于卷曲状态。 Curl似乎并没有遵循所有重定向,我正在尝试确定重定向顺序中的最后一页。寻求新的选择。
完全扫描应在3-5秒内完成。
重定向是302、301,元刷新和javascript重定向的混合。它们通常串在一起,混合各种类型,其唯一目的是阻止搜寻器,但允许合法的浏览器查看最终站点。
这是网络钓鱼电子邮件中常见的混淆技术。他们可能会使用Google搜索结果重定向,然后指向Yandex重定向,再指向最终目的地。
我并不是要抓取内容,只是为了确定重定向链中的跃点和最终URL,以便可以将其提交进行评估。
我们已经尝试了Curl并遵循PHP: Can CURL follow meta redirects,但是对于链中每种类型的文档,其技术都不同。
我尝试的结果是遵循以下链条:
我们经常看到这样的事情
通过电子邮件联系链接:
链接类型及其如何重定向到下一跳。
1 -----> 6 -----> 9 ------> 7 ---->最终目的地
我要确定的是每个步骤的网址,然后是在浏览器中看到的最终网址。
答案 0 :(得分:0)
直到第6点,您都可以卷曲。从第7点开始,您真是一团糟。我认为最好的方法是使用无头浏览器重新开发代码。
Google Chrome浏览器(以及其他)支持此功能:
https://developers.google.com/web/updates/2017/04/headless-chrome
它自然会跟随重定向,您可以使用基于Node的工具与之交互。