从网页中选择表格数据

时间:2011-04-26 18:29:31

标签: xpath web-scraping yql

我正在尝试使用YQL - http://www.empireonline.com/search/default.asp?search=Dragonheart(作为示例)从帝国杂志网站(电影评论(热门比赛)表)获得结果,我正在使用firebug获取xpath但它没有似乎想要返回结果。这就是我正在使用的;

select * from html where url='http://www.empireonline.com/search/default.asp?search=cars' and xpath='/html/body/table[3]/tbody/tr[5]/td[2]/table[2]/tbody/tr/td/table[2]/tbody/tr/td/table[2]'

现在似乎可以使用;

select * from html where url='http://www.empireonline.com/search/default.asp?search=cars' and xpath='//table'

但这是我不需要查阅的大量数据。

1 个答案:

答案 0 :(得分:1)

在制作适当的XPath查询时,您需要注意。以下内容通过首先定位“电影评论(热门匹配)”段落,然后导航到电影列表,获取该HTML表格中列出的每条评论的链接和名称。

SELECT href, strong
FROM html
WHERE url   = 'http://www.empireonline.com/search/default.asp?search=Thor'
AND   xpath = '
    //p[.="Film Reviews (Popular Matches)"]
    /ancestor::table[1]
    /following-sibling::table[1]
    //td[2]/a
'

Try this query in the YQL console。)