Simplehtmldom - 卷曲,循环,数组?

时间:2009-10-15 11:37:34

标签: php html dom extraction

请原谅最有可能是一个愚蠢的问题。我已经成功地设法遵循simplehtmldom示例并从一个网页获取我想要的数据。

我希望能够将函数设置为遍历目录中的所有html页面并提取数据。我用谷歌搜索和谷歌搜索,但现在我很困惑,因为我在我的无知状态,我认为我可以(以某种方式)使用PHP在目录中形成文件名数组,但我正在努力解决这个问题。

似乎很多我见过的例子都是使用curl。有人可以告诉我应该怎么做。这是大量的文件。我已尝试连接它们,但这只适用于通过html编辑器执行此操作 - 使用cat - >不起作用。

2 个答案:

答案 0 :(得分:1)

您可能希望使用glob('some/directory/*.html');manual page)来获取所有文件的列表作为数组。然后迭代它并为每个文件名使用DOM内容。

如果您从其他网络服务器提取HTML,如果这些存储在您想要的glob()网络服务器上,则只需要卷曲。

答案 1 :(得分:0)

假设您谈论的解析器工作正常,您应该构建一个简单的www-spider。查看网页中的所有链接并构建“链接到扫描”列表。并扫描每个页面......

你应该照顾循环引用。