这个页面上的这些表行的XPATH是什么?我想不出来!

时间:2010-11-10 13:04:00

标签: xpath screen-scraping

我从来没有像使用这个特定的网页那样抓取网页。我正在尝试解析Omgili的API结果页面中的评论。示例页面位于此处:

Omgili

之前我已经删除了很多页面,但是这个页面结果的确切XPATH真的很棘手,因为没有DIV类名,并且有5个嵌套表。我想XPath返回每个结果的所有表行(例如,第一个结果将是包含第一个评论的TR:“确切地说它需要做什么 - [2010年2月3日]”及其内容。

对此有何帮助,或者至少指向一个可以提供帮助的资源?我已经尝试过CHrome选择器小工具,但这甚至不适用于此网站。

我目前已尝试过以下操作,但此操作失败://table//table//tr[4]//table/tr/td[1]/table/tr

3 个答案:

答案 0 :(得分:2)

我很想作弊(如果它有效!)并注意评论链接是该页面上唯一具有以jmp开头的目标的链接。所以

//tr[td/span/a[starts-with(@href, 'jmp')]]

应该是您想要的行。

答案 1 :(得分:0)

这个查询怎么样:

//form [Name='f']//table[2]//table[3]//table/tr

好吧,我使用iRobotSoft Web Scraper从HTQL翻译它:

<form (Name='f')>1.<table>2.<table>3.<table>1.<tr>

答案 2 :(得分:0)

它也有效(在AakashM's idea之后):

//a[starts-with(@href, '/jmp')]/ancestor::tr[1]