PHP Scrape嵌套页面

时间:2011-12-12 15:36:51

标签: php domdocument scrape

我是网络新手的新手,需要快速学习工作。 我在抓取客户端网页时遇到问题,因为我需要获取的内容是唯一嵌套在主页面上的每条记录(300次以上),子页面上的某些字段不在标签中,而且有点混乱。 获取以下信息的最佳逻辑是什么? (如果有人知道任何新的刮刮工具是免费的并且值得研究,那就太棒了。 我能够获取父页面上的所有记录。我只是不知道如何跳过每条记录来访问它的子页面信息,并在移动到父页面的下一行之前抓住它。

1 个答案:

答案 0 :(得分:1)

foreach top level pages {
    html = fetch page
    data = process html
    while (there are more descendant pages) {
        html = fetch next page using data
        data = process html
    }
    save this data chain
}

但如果您正在努力克服上述逻辑,我想我必须建议您跳过代码并将时间集中在学习现有工具之一上。你几乎肯定会节省时间。特别是如果你经常刮胡子的话。