在下面的链接中,我想进入每个子页面并将HTML表解析为单个.html文件。另外,例如,如果我点击会计子页面,该子页面有多个班级列表页面(第1,2,3页等)。我想解析子页面的所有页面。
以下是父页面:http://my.gwu.edu/mod/pws/subjects.cfm?campId=1&termId=201401
我是否需要使用网络抓取工具?编译ONE .html文件中所有子页面的最佳方法是什么?我怎么能编写我的代码来有效地从列出的所有子页面中抓取所有html表数据?干杯!
答案 0 :(得分:1)
您可以使用ultimate-web-scraper来获取该页面。然后浏览您找到的所有链接,如下所示,请检查the docs是否完整。
$html->load($result["body"]);
$rows = $html->find("a[href]");
foreach ($rows as $row)
{
//get the page at $row->href, and so on recursevly
}
虽然如果你喜欢这样,但一定要跟踪你所访问过的链接,否则你可能会陷入无限循环。
只是旁注,如果有几百页,这可能不是一个好的解决方案,因为它会很慢。