我需要废弃<pre>
标记内容中的webspage。我正在使用preg_match_all
功能,但它不起作用。
我的抓取网站<pre>
标记内容如下。
<pre># Mon Jul 22 03:10:03 CDT 2013
99.46.177.18
99.27.119.169
99.254.168.132
99.245.96.210
99.245.29.38
99.240.245.97
99.239.100.211
<pre>
Php文件
更新
$data = file_get_contents('http://www.infiltrated.net/blacklisted');
preg_match_all ("/<pre>([^`]*?)<\/pre>/", $data, $matches);
print_r($matches);
exit;
我的php文件返回空数组。我知道我的preg_match_all
功能是个问题。
我如何获得预标签内容。请指导我。
编辑问题
我可以运行@Pieter脚本。但它只返回Array()
我的脚本如下。
<?php
$url = 'http://www.infiltrated.net/blacklisted';
$data = new DOMDocument();
$data->loadHTML(file_get_contents($url));
$xpath = new DomXpath($data);
$pre_tags = array();
foreach($xpath->query('//pre') as $node){
$pre_tags[] = $node->nodeValue;
}
print_r($pre_tags);
exit;
?>
答案 0 :(得分:2)
使用PHP函数循环遍历DOM。强烈建议不要使用HTML标记的Regex模式。
试试这段代码:
$data = new DOMDocument();
$data->loadHTML(file_get_contents($url));
$xpath = new DomXpath($data);
$pre_tags = array();
foreach($xpath->query('//pre') as $node){
$pre_tags[] = $node->nodeValue;
}
或者尝试PHP Simple HTML DOM Parser,请参阅:http://simplehtmldom.sourceforge.net/
答案 1 :(得分:0)
最后我明白了。此http://www.infiltrated.net/blacklisted网址从一个文本文件加载。因此只有预标记显示在页面源中。所以我正在使用这种方法。
$array = explode("\n", file_get_contents('http://www.infiltrated.net/blacklisted'));
print_r($array);
最后工作问候。