Question

我正在获取此网站上提供的职位列表：http://telekom.jobs/global-careers

我正在尝试获取XPath链接以获取有关工作的更多信息。

以下是第一个链接的整个XPath：

/html/body/div[3]/div/div[2]/div[3]/table/tbody/tr[2]/td/div/a/@href

这就是我应该粘贴到import.io：

tr[2]/td/div/a/@href

但它不起作用，我不知道为什么。

有关工作机会页面的更多信息的链接正在使用XPath：

tr[2]/td/div/a/@href
tr[4]/td/div/a/@href
tr[6]/td/div/a/@href
tr[8]/td/div/a/@href

等等。也许这就是为什么它不起作用？因为数字不是1,2,3等而是2,4,6？或者我做错了什么？

Answer 1

如果您是从URL 2.0创建API并使用JS重新加载网站但关闭CSS，您应该能够看到可折叠菜单：

DOM在这个网站上以这样的方式构建，所有奇数行都有作业标题，而有关作业的更多信息隐藏在偶数行中。为此，我们可以使用XPath的position（）属性，因此您可以在手动行训练中使用以下XPath：

/html/body/div[3]/div/div[2]/div[3]/table/tbody/tr[position() mod 2 = 0]

其中突出显示了更多信息框，只允许您访问内部数据。从这里，您可以简单地定位具有标题和链接的元素的特定属性。

链接xpath：.//a[@class=’forward jobadview’]/@href 标题xpath：.//div[@class=’info’]//h3

由于在网站上大量使用JS，它可能无法发布，因此我们创建了一个API供您查询，您可以使用此处检索相同的数据。