PHP SimpleHTMLDom提取

时间:2012-03-18 05:34:00

标签: php screen-scraping

我希望从http://www.pferd-aktuell.de/fn-service/pferdebranchenbuch/kategorie-uebersicht/13/FN-Vereine的表格的第一列获取名称和URL,然后遍历NEXT按钮,从所有可用页面中获取所有这些名称及其URL的出现。我试过这样的东西,它没有输出任何东西。

<?php

include('simplehtmldom/simple_html_dom.php');
ini_set('max_execution_time', 1800);

$url = 'http://www.pferd-aktuell.de/fn-service/pferdebranchenbuch/kategorie-uebersicht/13/FN-Vereine';
$html = file_get_html($url);
$file = 'Titels.txt';

    if (!$fp = fopen($file, 'a+')) {
        echo "Cannot open file ($file)";
        exit;
        } 
    else {
        for ($i=1; $i<=25; $i=$i+1)
        {
            $ret = $html->find('td[class]="withBorder bold"', $i);
            fwrite( $fp, $ret->plaintext."\n");
        }
    }

}

在提取Titel和URL之后,我计划浏览每个URL并能够从那里提取一些div(如Ort,Email等)。

让我开始的任何示例代码?请:)

1 个答案:

答案 0 :(得分:0)

find()调用应该是:

$ret = $html->find('td[class="withBorder bold"]', $i);
                                              ^---note the new location

如上所述,您正在寻找 HAS 类属性的任何td,然后是无意义的= html元素。