我甚至不确定这是否是提出这个问题的合适地方,但我甚至找不到任何人谈论这个问题。 我在google脚本中使用importXML函数从网站www.laterooms.com导入数据,我可以为第一页的结果做这个没问题,
sheet.appendRow(['=ImportXML("k16295585_london-hotels.aspx?hidfl=&k=London&d=20140911&n=1&rt-adult=2&rt-child=0&rt=2-0¤cies=GBP&distanceUnit=Miles",K1)'])
然而,结果的第二页具有相同的URL,在地址末尾的#后面添加了6个可变字符,如果您在新窗口中浏览到此URL,则会返回到第1页。如果您只是使用公式中第2页的URL,然后从第1页获得结果。 如果有人可以帮我确定如何调用第二页结果的URL,或者告诉我应该在哪里提出这个问题(我认为这不是正确的地方)我将非常感激。 这可能是一个非常愚蠢的问题,但我在这里结束了我的智慧。
感谢您的时间。
答案 0 :(得分:0)
听起来您需要的不仅仅是此方案原始网址上的ImportXML
。
您需要使用更复杂的内容,例如http://phantomjs.org/,https://github.com/sparklemotion/mechanize等,以编程方式导航网站并从下游页面中删除数据。与ImportXML不同,这些工具将跟踪像这样的网站使用的cookie和会话,以跟踪您所处的视图状态。
与往常一样,请注意网页抓取的潜在法律/道德问题。