应用错误收集

我希望这是一个非常简单的问题：有没有人知道有效地抓取使用Microsoft Matrix构建的网站的工具？我可以在python中编写代码，但它会比我想要专门用于任务的时间更长，即由于Matrix生成的非常糟糕和丑陋的HTML。

我尝试过Web Harvey，Helium Scraper，我尝试了Chrome的Web Scraper插件。 WebHarvey对HTML感到窒息，无法加载后续页面。 Helium Scraper能够从一个详细信息页面移动到另一个详细信息页面（遵循下一个链接），但详细信息页面内的内容未被取消。 Chrome插件网络抓取工具无法导航链接，弹出窗口显示错误页面。我的直觉告诉我，这与ASP.net的独特之处有关，但我可能错了。

赞赏任何指示或建议。

Microsoft Web Matrix

1 个答案: