应用错误收集

时间：2009-10-15 11:37:34

标签： php html dom extraction

请原谅最有可能是一个愚蠢的问题。我已经成功地设法遵循simplehtmldom示例并从一个网页获取我想要的数据。

我希望能够将函数设置为遍历目录中的所有html页面并提取数据。我用谷歌搜索和谷歌搜索，但现在我很困惑，因为我在我的无知状态，我认为我可以（以某种方式）使用PHP在目录中形成文件名数组，但我正在努力解决这个问题。

似乎很多我见过的例子都是使用curl。有人可以告诉我应该怎么做。这是大量的文件。我已尝试连接它们，但这只适用于通过html编辑器执行此操作 - 使用cat - ＆gt;不起作用。

答案 0 :(得分：1)

您可能希望使用glob('some/directory/*.html');（manual page）来获取所有文件的列表作为数组。然后迭代它并为每个文件名使用DOM内容。

如果您从其他网络服务器提取HTML，如果这些存储在您想要的glob()网络服务器上，则只需要卷曲。

答案 1 :(得分：0)

假设您谈论的解析器工作正常，您应该构建一个简单的www-spider。查看网页中的所有链接并构建“链接到扫描”列表。并扫描每个页面......

你应该照顾循环引用。