Question

我正在使用PHP中的抓取脚本。我正在使用PHP Simple HTML DOM Parser。

获取HTML后，我需要从每个页面中仅提取一些信息，然后将这些信息汇总到我网站上自己的HTML页面中。

我无法理解如何继续这样做。

感谢任何帮助。

加

我想提取一些帖子（如果与特定的地理位置和主题相关）

Answer 1

正则表达式可能是从数据中获取复杂信息的方法，但对于简单标记，您可以使用以下内容：

//从URL或文件创建DOM $ html = file_get_html（'http://www.google.com/'）;

//查找所有图像
foreach（$ html-＆gt; find（'img'）as $ element）
echo $ element-＆gt; src。 '＆LT峰; br＆GT;';

//查找所有链接
foreach（$ html-＆gt; find（'a'）as $ element）
echo $ element-＆gt; href。 '＆LT峰; br＆GT;';

Answer 2

你可以这样做：

$doc = new DomDocument();
@$doc->loadHTMLFile($url);
$xpath = new DOMXpath($doc);
$nodeList = $xpath->query("your-xpath-query");
foreach ($nodeList as $node) {
    // grab the content, attributes or whatever you'r looking for
}

使用Xpath查询，您不必手动遍历DOM树，并且您的脚本可以更好地抵御您抓取的站点中的结构更改。

我希望能让你走上正轨。有关更详细的示例，您必须提供更多信息。

为聚合站点爬行和处理HTML

2 个答案: