我需要抓取特定网站以挖掘一些相关信息。 首先,我必须搜索网站以获取相应的网址,这些网址在抓取时会向我提供详细信息。
我们假设,搜索网址是
example.com/city1/search.html?cat=category1&locality=location1&page=1
这意味着,可以有city2,city3等类别可以是category2,category3等,用于位置和页面。
我收集了所有城市,类别,地点和页面可以递增,直到结果不为空。
获取所有网址后,我将不得不从每个网址中挖掘出详细信息。我已经看到某些必要的信息可以作为javascript的一部分。
现在,我已经看过node.io,jsdom和phantomjs。我也见过yql。 由于我是新手,请根据您的经验建议我,在这种情况下哪一个是理想的。
如果你能引用一些例子,那就太棒了。
答案 0 :(得分:0)
PhantomJS可以在您提供的URL中运行javascript,如果URL包含javascript / ajax内容,则非常有用。 但YQL并没有在网站上运行javascript / ajax,但它很快就能得到一些东西