使用Simple HTML Dom库从网页获取值

时间:2013-10-23 16:04:53

标签: php php-5.3 simple-html-dom

我试图从网页中的表中获取值,并且我尝试使用Simple HTML Dom库。这就是我的代码的样子:

include('simple_html_dom.php');

$html = file_get_html('http://www.lvbp.com/posicion.html');

$arr = array();
foreach ($html->find('tr') as $e) {
    array_push($arr, $e->innertext);
}

echo '<pre>';
print_r($arr);
echo '</pre>';

for ($i = 2; $i < count($arr); $i++) {
    str_replace("", "-", $arr[$i]);
    print_r($arr[$i]);
}

我在print_r($arr)

时将其作为输出
Array
(
    [0] =>       EQUIPOS      J      G      P      Vent    
    [1] => 
    [2] =>       Navegantes      11      8      3      0    
    [3] =>       Tigres      11      8      3      0    
    [4] =>       Caribes      11      6      5      2    
    [5] =>       Leones      11      6      5      2    
    [6] =>       Aguilas      11      5      6      3    
    [7] =>       Tiburones      10      4      6      3.5    
    [8] =>       Cardenales      10      3      7      4.5    
    [9] =>       Bravos      11      3      8      5    
)

但是从这里开始我需要单独表达意思&#34; Navegantes&#34;,&#34; 11&#34;,&#34; 8&#34;等等...对于每个阵列位置。对于我的最后一个代码:

for ($i = 2; $i < count($arr); $i++) {
    str_replace("", "-", $arr[$i]);
    print_r($arr[$i]);
}

但是因为我得到了这个结果,所以它没有工作:

Navegantes 11 8 3 0 Tigres 11 8 3 0 Caribes 11 6 5 2 Leones 11 6 5 2 Aguilas 11 5 6 3 Tiburones 10 4 6 3.5 Cardenales 10 3 7 4.5 Bravos 11 3 8 5 

我失踪了什么?有什么帮助吗?

更新

这是我的代码基于建议的样子:

include('simple_html_dom.php');
$html = file_get_html('http://www.lvbp.com/posicion.html');

$arr = array();
foreach ($html->find('tr') as $e) {
    $narr = array();
    foreach ($e->find('td') as $vp) {
        array_push($narr, $vp->plaintext);
    }
    $arr[] = array($narr);
}

2 个答案:

答案 0 :(得分:1)

试试这个:

$arr = array();
foreach ($html->find('tr') as $e) {
 $narr=array();
 foreach($e->find('td') as $vp){
  array_push($narr,$vp->plaintext);
 }
 $arr[]=array($narr);
}

而不是:

foreach ($html->find('tr') as $e) {
    array_push($arr, $e->innertext);
}

删除代码:

for ($i = 2; $i < count($arr); $i++) {
    str_replace("", "-", $arr[$i]);
    print_r($arr[$i]);
}

您将获得一个数组,其中键为 tr 标记,其值为 tr 的每个 td

答案 1 :(得分:0)

这是一种方法:

// includes Simple HTML DOM Parser
include "simple_html_dom.php";

$url = "http://www.lvbp.com/posicion.html";

//Create a DOM object
$html = new simple_html_dom();
// Load HTML from a string
$html->load_file($url);

// parse rows
foreach ($html->find('tr') as $i => $row) {

    // Skip the second empty row
    if ($i == 1)
        continue;

    // parse and print cells
    foreach ($row->find('td') as $j => $col) {
        echo $col->plaintext;
        echo "|";
    }
    echo "<hr>";
}


// Clear DOM object (needed essentially when using many)
$html->clear(); 
unset($html);

Live DEMO