我正在尝试构建一个小应用程序,它会通知我网站的变化(实际上是我的学校) - 它修改了HTML代码 < / p>
我试图获取以下网站的HTML代码。 http://www.tivon.ort.org.il/%D7%9E%D7%94-%D7%97%D7%93%D7%A9-1/
我已经在PHP中测试了serval方法,包括:
$html = file_get_contents(URL);
//OR
$html = file_get_html(URL); //Using http://simplehtmldom.sourceforge.net/
以及使用cURL。
所有这些方式都会返回以下HTML,这不是我想要获取的页面的HTML:
<html><head><meta charset="utf-8"></head><body><script src="//d1a702rd0dylue.cloudfront.net/js/iealml-03/10800.js"></script><script>window.rbzns = {}; rbzns.hosts="schools.ort.org.il www.achva.ort.org.il achva.ort.org.il acotech.ort.org.il afula.ort.org.il afulaalon.ort.org.il www.aliya2.ort.org.il aliya2.ort.org.il arad.ort.org.il www.astro.ort.org.il astro.ort.org.il www.bamaale.ort.org.il bamaale.ort.org.il www.bialik.ort.org.il bialik.ort.org.il dafna.ort.org.il eshkolakko.ort.org.il www.ganyavne.ort.org.il ganyavne.ort.org.il geha-edu.org.il www.geula.ort.org.il geula.ort.org.il www.givatayim.ort.org.il givatayim.ort.org.il givatram.ort.org.il www.guttman.ort.org.il guttman.ort.org.il www.hazor.ort.org.il hazor.ort.org.il hof-carmel.org.il www.hof-carmel.org.il www.holon.ort.org.il holon.ort.org.il www.igalalon.ort.org.il igalalon.ort.org.il www.kramim.ort.org.il kramim.ort.org.il www.lilienthal.ort.org.il lilienthal.ort.org.il lodtech.ort.org.il motzkin.ort.org.il neriya.ort.org.il www.orenafula.ort.org.il orenafula.ort.org.il www.ormat.ort.org.il ormat.ort.org.il www.oumbatin.ort.org.il oumbatin.ort.org.il www.psagot.ort.org.il psagot.ort.org.il www.rogozin.ort.org.il rogozin.ort.org.il www.sajur.ort.org.il sajur.ort.org.il sapirextra.ort.org.il www.shamir.ort.org.il www.sharet.ort.org.il shemer.ort.org.il www.spanian.ort.org.il spanian.ort.org.il tarshiha.ort.org.il technology.ort.org.il www.technology.ort.org.il www.tivon.ort.org.il tivon.ort.org.il www.ulpanit.ort.org.il ulpanit.ort.org.il www.yadshapira.ort.org.il yadshapira.ort.org.il www.yeshmaalot.ort.org.il yeshmaalot.ort.org.il yeshtveria.ort.org.il www.kugel.org.il roz.ort.org.il ylb.ort.org.il tzurarad.ort.org.il www.hilmi.ort.org.il oma.ort.org.il hauashle.ort.org.il vilnai.ort.org.il sheandati.ort.org.il ronsonc.ort.org.il afek.ort.org.il www.dekelvilnae.ort.org.il www.mevoot-eron.org yami-ashdod.ort.org.il www.sheanklali.ort.org.il molada.ort.org.il www.melton.ort.org.il www.sallama.ort.org.il www.telnof.ort.org.il ortlaaoc.ort.org.il www.shapira.ort.org.il www.bgg.co.il www.ebin.ort.org.il darski.ort.org.il www.iai.ort.org.il modiin.ort.org.il www.modiin.ort.org.il ortmodiin.ort.org.il neve-sara.ort.org.il ort-yadin.ort.org.il www.lod.ort.org.il"; rbzns.ctrbg="L2Pfvthe2b9jPQUWp0ZxIu248ov5v83+GtxsvLzg1jjDmPckhvTjr0FM3NAO4BEKVXI7AgAz1PMMI2MlLtJDnajFt+6HZ3Zi99Z55YvMvU8ardvckHHwI8/O+x3DhYi0YjF7irWG0sgbbUEDU6m8JdUZsvvzDHnJiVyP7XeiY+gpZM6WCIrZ+NhhuWfwAuvNS5UY6mazB+ZIhvkNA+RObxAUD5VHeqzh8WJIVFYorZ4RCohU28Q2jjbtKqHn7wdJ";rbzns.rbzreqid="2e6d1f6c31343232323037373231cb23df000c96b36c"; winsocks(true);</script></body></html>
我确实设法使用我检查过的路线获取其他网站的HTML代码,但不是我真正需要HTML的特定网站。 从我的理解,它以某种方式&#34;受保护&#34;反对机器人。
任何解决这种不必要的&#34;保护&#34;?提示?
答案 0 :(得分:2)
当您第一次访问该网站时,它会设置一个Cookie rbzid
。你必须记住这个cookie。有一个例子,如何使用curl与cookiejar here。他们还记得你的用户代理。我不确定他们是否也检查这个用户代理是浏览器 - 我不这么认为,但他们可能会这样。无论如何,您必须保持相同的用户代理。它可能以某种方式编码在cookie中。
您可以这样验证:在浏览器中打开网站。检查rbzid cookie的值。同时复制浏览器的用户代理。然后,在终端中运行:
curl "http://www.tivon.ort.org.il/%D7%9E%D7%94-%D7%97%D7%93%D7%A9-1/" -A "user-agent" --cookie rbzid=cookie