Web爬网:XPath分页

时间:2020-11-07 11:39:32

标签: xpath web-scraping pagination

我正在尝试使用Octoparse刮擦一些公司网站。我似乎无法正确使用XPath进行分页。网站页面上没有“下一步”按钮。我正在尝试从每个页面抓取数据。 有什么建议吗?

我尝试了以下XPath(以及其他一些失败):

//*[@id="main"]/div[2]/section/div[1]/nav/ul/li[1]/a/following-sibling::li[1]/a

以下是我正在测试的一家公司website的示例。

2 个答案:

答案 0 :(得分:0)

您需要当前页面的下一页。 following-sibling

非常简单
//li[./a[@class="current"]]/following-sibling::li[1]

您可以阅读有关此here

的信息

答案 1 :(得分:0)

在修改Redyukov Pavel的有效解决方案时回答了自己的问题:

//a[@class='current']/../following-sibling::li[1]/a[1]