我正在尝试从quikbook.com抓取数据。我可以刮掉酒店名称的第一页,但我不知道如何导航到第二页。这是下一页按钮的标记:
<a id="nextLink" href="javascript:void(0)" cachekey="62707097:1515f4a1462:2e0c" cachelocation="10.186.170.117:7300" class="btn b-tertiary"><span>Next Page</span></a>
我的问题: 1)如何获取与其javascript相关的脚本:void(0) 2)如何导航到第二页。 我尝试使用Chrome检查工具查找页码,但没有页码。 任何帮助都非常感谢
答案 0 :(得分:0)
对于类似这样的事情,最好使用像硒这样的网络驱动程序工具。如果你只想用漂亮的汤来做,你可以通过URL修改来破解它。
如果您查看网页的网址,您会注意到下一页中包含cachelocation
和chachekey
。以下是一个示例网址:
该页面上的下一步按钮是:
<a id="nextLink" href="javascript:void(0)" cachekey="-1df6c48d:1516012d60d:6b74" cachelocation="10.186.170.66:7300" class="btn b-tertiary"><span>Next Page</span></a>
在上面的网址中替换这些:
&cacheLocation=10.186.170.66%3A7300
&cacheKey=-1df6c48d%3A1516012d60d%3A6b74
您将获得下一页的网址
请注意,:
已被%3A
取代,因此网址可以处理它。