DOM刮擦此页面的特定表格

时间:2013-05-07 22:10:01

标签: php html dom web-scraping

我试图抓住本页右侧的最后一张表http://anonym.to/?https://vircurex.com/并抓取所有数据并将其打印出来。问题是所有这些表都使用相同的样式和类名,所以我不知道如何获得该特定的表。

1 个答案:

答案 0 :(得分:0)

我有一个函数用于获取任何给定元素的InnerHtml:

function InnerHtml($element) 
{ 
    $innerHTML = ""; 
    if($element != NULL && $element->hasChildNodes())
    {
        $children = $element->childNodes; 
        foreach ($children as $child) 
        { 
            $tmp_dom = new DOMDocument(); 
            $tmp_dom->appendChild($tmp_dom->importNode($child, true)); 
            $innerHTML.=trim($tmp_dom->saveHTML()); 
        } 
    }
    return $innerHTML; 
} 

如果您查询表格

$dom_document = new DOMDocument();
@$dom_document->loadHTML("Your Page - However you have decided to download it");
$table = $dom_document->query("table[class='MyList]'");

然后您应该只能传递列表中的最后一个:

enter code here echo InnerHtml($ table-> item(count($ table)-1));

我没有测试过,但它基本上是你的事。