基本上我们有一个网站,其中包含不同项目的大量数据,并且它被安排为能够在树状结构(http://www.isoldwhat.com/getcats/fullcategorytree.php)中描述项目。我们想要打破所有类别并将它们导出到Json文件。我遇到的问题是打开每个类别我需要点击它并让它重新加载。我想我必须模仿每个类别的点击次数。解析这些数据的最佳方法是什么?我可能会使用一些jQuery,但我对其他选项持开放态度。
答案 0 :(得分:0)
如果您对选项开放,那么我会使用Selenium WebDriver。我将它用于一个项目,我必须在网页上抓取数据并存储它并针对它编写报告。我也必须模仿真实的用户导航,这是完美的。它的文档非常简单。它很容易上手。在半小时内,我从一个简单的搜索页面中搜索结果。
我还使用HTML Agility Pack来解析某些数据。这两者的组合应该可以让你到达目的地。