Question

在下面的链接中，我想进入每个子页面并将HTML表解析为单个.html文件。另外，例如，如果我点击会计子页面，该子页面有多个班级列表页面（第1,2,3页等）。我想解析子页面的所有页面。

我是否需要使用网络抓取工具？编译ONE .html文件中所有子页面的最佳方法是什么？我怎么能编写我的代码来有效地从列出的所有子页面中抓取所有html表数据？干杯!

Answer 1

您可以使用ultimate-web-scraper来获取该页面。然后浏览您找到的所有链接，如下所示，请检查the docs是否完整。

$html->load($result["body"]);
$rows = $html->find("a[href]");
foreach ($rows as $row)
{
  //get the page at $row->href, and so on recursevly
}

虽然如果你喜欢这样，但一定要跟踪你所访问过的链接，否则你可能会陷入无限循环。

只是旁注，如果有几百页，这可能不是一个好的解决方案，因为它会很慢。