使用XPath解析HTML NFL.com

时间:2012-10-05 17:39:07

标签: php html xpath

http://www.nfl.com/widget/gc/2011/tabs/cat-post-boxscore?gameId=2012093000

我希望从上面的链接(即游戏级别的NFL数据)中抓取数据。

NFL.com有一个方便的JSON API,可以访问很多这些数据。也就是说,对于2010年及以后的游戏。对于早期的游戏,我将不得不解析与上面类似的页面的HTML。

我一直试图使用Xpath来刮掉它。但是,我发现很难区分表为“thd2”的表行的表头和表为“tbdy1”类的表行的数据

如果有人知道如何遍历这些数据并提取数据,表头并将它们放入数组中,我希望看到你的方法!

$curl = curl_init('http://www.nfl.com/widget/gc/2011/tabs/cat-post-boxscore?gameId=2012093000');
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($curl, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.10 (KHTML, like Gecko) Chrome/8.0.552.224 Safari/534.10');

$html = curl_exec($curl);
curl_close($curl);

$dom = new DOMDocument();
@$dom->loadHTML($html);

$xpath = new DOMXPath($dom);

$tables = $xpath->query('//table[1]/tbody/td');
var_dump($tables);

0 个答案:

没有答案