Question

我正在使用简单的HTML DOM解析器编写一个关于Web抓取的项目。我从我的数据库中抓取网页，提取内容然后存储在数据库中。代码在第一个URL上工作正常，但在剩余的URL上它只是突破了循环。以下是我的代码。

include_once('Connections/elecom_connect.php');
include_once('dom/simple_html_dom.php');

mysqli_select_db($elecom_connect,$database_elecom_connect);
$sql = "SELECT * FROM link_data";
$result_links = array();
$result_cates = '';
$result_subs = '';
$result_names = '';
$num = -1;
$count = 0;

$img = '.image-wrapper img';
$brand = 'h2.title span.brand';
$name = 'h2.title span.name';
$price = 'span.price-box';
$link = 'section.products a.link';

$site = new simple_html_dom();

$query = mysqli_query($elecom_connect,$sql);

if (!$query){
    echo 'Database error: ' .    mysqli_error($elecom_connect);
}

while ($row = mysqli_fetch_array($query)) {
    $result_links[] =  $row;
}

foreach($result_links as $link){
    $var = $link['link'];
    if (!empty($var)) {
        var_dump($var);

        $site->load_file($var);
        if (!empty($site)) {
            $currentImg = $site->find($img);
            $currentBrand = $site->find($brand);
            $currentName = $site->find($name);
            $currentPrice = $site->find($price);
            $currentLink = $site->find($link);

            $rid = $link['id'];
            $rcates = $link['link_category'];
            $rsubs = $link['link_subcategory'];
            $rnames = $link['link_name'];
            if (!empty($currentImg)) {
                foreach($currentImg as $im){
                    $count++;

                    if($count % 2 == 0 && $count < 40){
                        $num++;

                        $cImg = $im->src;
                        $cBrand = "<p>".$currentBrand[$num]->plaintext."</p>";
                        $cName = "<p>".$currentName[$num]->plaintext."</p>";
                        $cPrice = "<p>".$currentPrice[$num]->plaintext."</p>";
                        //$cLink = $currentLink[$num]->href;

                        $content = file_get_contents($cImg);
                        //Store in the filesystem.
                        $save_path = "cachedPages/$rid.$num.jpg";
                        file_put_contents($save_path,$content);

                        $insertSQL = "INSERT INTO item_detail (item_name, item_brand, item_price, item_img, item_cate, item_sub_cate,filter_by) VALUES ('$cName', '$cBrand', '$cPrice','$save_path','$rcates','$rsubs','$rnames')";

                        mysqli_select_db($elecom_connect,$database_elecom_connect);
                        $Result1 = mysqli_query($elecom_connect,$insertSQL) or die(mysqli_error(          $elecom_connect));

                        echo 'Success';


                    }
                }
            }

        }
    }
    $site->clear();
}

这是我得到的错误代码。

致命错误：未捕获错误：在dom / simple_html_dom.php中调用null上的成员函数find（）：1113堆栈跟踪：＃0

我该怎么办？

Answer 1

这行代码不正确：

$site = new simple_html_dom();

您显然不需要根据GitHub https://github.com/samacs/simple_html_dom/tree/master/example中的示例目录执行此操作

您要做的是使用两种方法之一

包含file_get_html时加载的

str_get_html或include_once('dom/simple_html_dom.php');。

所以你真的想看看

$site = file_get_html($url); //URL to a site you are parsing ie 'http://www.google.com/'
//OR 
$site = str_get_html($str); // String file to some html file

如果您阅读代码，实际上会创建一个$dom_node，其中包含find方法。

你有什么奇怪的原因是因为你正在创建和对象，当你检查if(!empty($site))时它会返回true，因为有一个对象。但是，内部dom_node未正确设置。

当你到达这个libs文件的第1113行时，你有一个空dom_node，null->find()会抛出你得到的错误。

Answer 2

您替换每行的整个数组，因此只会删除最后一个URL。

$result_links = array();
while ($row = mysqli_fetch_array($query))
{ 
    array_push($result_links, $row);
}

为什么我的代码跳出循环在php

2 个答案: