我正在使用简单的HTML DOM解析器编写一个关于Web抓取的项目。我从我的数据库中抓取网页,提取内容然后存储在数据库中。代码在第一个URL上工作正常,但在剩余的URL上它只是突破了循环。以下是我的代码。
include_once('Connections/elecom_connect.php');
include_once('dom/simple_html_dom.php');
mysqli_select_db($elecom_connect,$database_elecom_connect);
$sql = "SELECT * FROM link_data";
$result_links = array();
$result_cates = '';
$result_subs = '';
$result_names = '';
$num = -1;
$count = 0;
$img = '.image-wrapper img';
$brand = 'h2.title span.brand';
$name = 'h2.title span.name';
$price = 'span.price-box';
$link = 'section.products a.link';
$site = new simple_html_dom();
$query = mysqli_query($elecom_connect,$sql);
if (!$query){
echo 'Database error: ' . mysqli_error($elecom_connect);
}
while ($row = mysqli_fetch_array($query)) {
$result_links[] = $row;
}
foreach($result_links as $link){
$var = $link['link'];
if (!empty($var)) {
var_dump($var);
$site->load_file($var);
if (!empty($site)) {
$currentImg = $site->find($img);
$currentBrand = $site->find($brand);
$currentName = $site->find($name);
$currentPrice = $site->find($price);
$currentLink = $site->find($link);
$rid = $link['id'];
$rcates = $link['link_category'];
$rsubs = $link['link_subcategory'];
$rnames = $link['link_name'];
if (!empty($currentImg)) {
foreach($currentImg as $im){
$count++;
if($count % 2 == 0 && $count < 40){
$num++;
$cImg = $im->src;
$cBrand = "<p>".$currentBrand[$num]->plaintext."</p>";
$cName = "<p>".$currentName[$num]->plaintext."</p>";
$cPrice = "<p>".$currentPrice[$num]->plaintext."</p>";
//$cLink = $currentLink[$num]->href;
$content = file_get_contents($cImg);
//Store in the filesystem.
$save_path = "cachedPages/$rid.$num.jpg";
file_put_contents($save_path,$content);
$insertSQL = "INSERT INTO item_detail (item_name, item_brand, item_price, item_img, item_cate, item_sub_cate,filter_by) VALUES ('$cName', '$cBrand', '$cPrice','$save_path','$rcates','$rsubs','$rnames')";
mysqli_select_db($elecom_connect,$database_elecom_connect);
$Result1 = mysqli_query($elecom_connect,$insertSQL) or die(mysqli_error( $elecom_connect));
echo 'Success';
}
}
}
}
}
$site->clear();
}
这是我得到的错误代码。
致命错误:未捕获错误:在dom / simple_html_dom.php中调用null上的成员函数find():1113堆栈跟踪:#0
我该怎么办?
答案 0 :(得分:0)
这行代码不正确:
$site = new simple_html_dom();
您显然不需要根据GitHub https://github.com/samacs/simple_html_dom/tree/master/example中的示例目录执行此操作
您要做的是使用两种方法之一
包含file_get_html
时加载的 str_get_html
或include_once('dom/simple_html_dom.php');
。
所以你真的想看看
$site = file_get_html($url); //URL to a site you are parsing ie 'http://www.google.com/'
//OR
$site = str_get_html($str); // String file to some html file
如果您阅读代码,实际上会创建一个$dom_node
,其中包含find
方法。
你有什么奇怪的原因是因为你正在创建和对象,当你检查if(!empty($site))
时它会返回true,因为有一个对象。但是,内部dom_node
未正确设置。
当你到达这个libs文件的第1113行时,你有一个空dom_node
,null->find()
会抛出你得到的错误。
答案 1 :(得分:-2)
您替换每行的整个数组,因此只会删除最后一个URL。
$result_links = array();
while ($row = mysqli_fetch_array($query))
{
array_push($result_links, $row);
}