Question

我从来没有像使用这个特定的网页那样抓取网页。我正在尝试解析Omgili的API结果页面中的评论。示例页面位于此处：

之前我已经删除了很多页面，但是这个页面结果的确切XPATH真的很棘手，因为没有DIV类名，并且有5个嵌套表。我想XPath返回每个结果的所有表行（例如，第一个结果将是包含第一个评论的TR：“确切地说它需要做什么 - [2010年2月3日]”及其内容。

对此有何帮助，或者至少指向一个可以提供帮助的资源？我已经尝试过CHrome选择器小工具，但这甚至不适用于此网站。

我目前已尝试过以下操作，但此操作失败：//table//table//tr[4]//table/tr/td[1]/table/tr

Answer 1

我很想作弊（如果它有效！）并注意评论链接是该页面上唯一具有以jmp开头的目标的链接。所以

//tr[td/span/a[starts-with(@href, 'jmp')]]

应该是您想要的行。

Answer 2

这个查询怎么样：

//form [Name='f']//table[2]//table[3]//table/tr

好吧，我使用iRobotSoft Web Scraper从HTQL翻译它：

<form (Name='f')>1.<table>2.<table>3.<table>1.<tr>

Answer 3

它也有效（在AakashM's idea之后）：

//a[starts-with(@href, '/jmp')]/ancestor::tr[1]