我希望这是一个非常简单的问题:有没有人知道有效地抓取使用Microsoft Matrix构建的网站的工具?我可以在python中编写代码,但它会比我想要专门用于任务的时间更长,即由于Matrix生成的非常糟糕和丑陋的HTML。
我尝试过Web Harvey,Helium Scraper,我尝试了Chrome的Web Scraper插件。 WebHarvey对HTML感到窒息,无法加载后续页面。 Helium Scraper能够从一个详细信息页面移动到另一个详细信息页面(遵循下一个链接),但详细信息页面内的内容未被取消。 Chrome插件网络抓取工具无法导航链接,弹出窗口显示错误页面。我的直觉告诉我,这与ASP.net的独特之处有关,但我可能错了。
赞赏任何指示或建议。
答案 0 :(得分:2)
您知道Microsoft Web Matrix有两个完全不同的版本吗?那是2003年的那个;我不知道它的HTML是什么样的。从2011年到现在,使用razor cshtml源文件生成其html。在2011年以上,你手工编写html;没有拖放,因此您不太可能在网站与网站之间获得一致的HTML。