我正在处理爬虫项目,我需要你的帮助,这是我的第一个项目。任务是从“http://justdial.com”获取数据。例如,我想获取城市名称(班加罗尔),类别(酒店),酒店名称,地址和电话号码。
我已经编写了一个代码来从'id'中获取标记内容,就像我从中获取了地址:
<?php
$url="http://www.justdial.com/Bangalore/hotels";
$original_file = file_get_contents("$url");
$stripped_file = strip_tags($original_file, "<div>");
$newlines="'<div class=\"logoDesc\">(.*?)</div>'si";
$newlines=preg_replace('#<div(?:[^>]*)>.</div>#u','',$newlines);
preg_match_all("$newlines", $stripped_file, $matches);
//DEBUGGING
//$matches[0] now contains the complete A tags; ex: <a href="link">text</a>
//$matches[1] now contains only the HREFs in the A tags; ex: link
header("Content-type: text/plain"); //Set the content type to plain text so the print below is easy to read!
$path= ($matches);
print_r($path); //View the array to see if it worked
?>
现在问题是,我想从内容中分离标记并将其存储在数据库中。并从数据库到excel表。请帮帮我。
答案 0 :(得分:1)
您不应该使用正则表达式来解析HTML。你应该使用DomDocument之类的东西。使用它的一个小例子:
<?php
$str = '<h1>T1</h1>Lorem ipsum.<h1>T2</h1>The quick red fox...<h1>T3</h1>... jumps over the lazy brown FROG';
$DOM = new DOMDocument;
$DOM->loadHTML($str);
//get all H1
$items = $DOM->getElementsByTagName('h1');
//display all H1 text
for ($i = 0; $i < $items->length; $i++)
echo $items->item($i)->nodeValue . "<br/>";
?>