Question

我甚至不确定这是否是提出这个问题的合适地方，但我甚至找不到任何人谈论这个问题。我在google脚本中使用importXML函数从网站www.laterooms.com导入数据，我可以为第一页的结果做这个没问题，

sheet.appendRow(['=ImportXML("k16295585_london-hotels.aspx?hidfl=&k=London&d=20140911&n=1&rt-adult=2&rt-child=0&rt=2-0&currencies=GBP&distanceUnit=Miles",K1)'])

然而，结果的第二页具有相同的URL，在地址末尾的＃后面添加了6个可变字符，如果您在新窗口中浏览到此URL，则会返回到第1页。如果您只是使用公式中第2页的URL，然后从第1页获得结果。如果有人可以帮我确定如何调用第二页结果的URL，或者告诉我应该在哪里提出这个问题（我认为这不是正确的地方）我将非常感激。这可能是一个非常愚蠢的问题，但我在这里结束了我的智慧。

感谢您的时间。

Answer 1

听起来您需要的不仅仅是此方案原始网址上的ImportXML。

您需要使用更复杂的内容，例如http://phantomjs.org/，https://github.com/sparklemotion/mechanize等，以编程方式导航网站并从下游页面中删除数据。与ImportXML不同，这些工具将跟踪像这样的网站使用的cookie和会话，以跟踪您所处的视图状态。

与往常一样，请注意网页抓取的潜在法律/道德问题。

使用谷歌脚本从不同页面导入XML

1 个答案: