Node.io,JSDOM还是PhantomJs?或者,YQL- data.html.cssselect?

时间:2012-11-24 09:50:32

标签: node.js phantomjs web-crawler jsdom node.io

我需要抓取特定网站以挖掘一些相关信息。 首先,我必须搜索网站以获取相应的网址,这些网址在抓取时会向我提供详细信息。

我们假设,搜索网址是

example.com/city1/search.html?cat=category1&locality=location1&page=1

这意味着,可以有city2,city3等类别可以是category2,category3等,用于位置和页面。

我收集了所有城市,类别,地点和页面可以递增,直到结果不为空。

获取所有网址后,我将不得不从每个网址中挖掘出详细信息。我已经看到某些必要的信息可以作为javascript的一部分。

现在,我已经看过node.io,jsdom和phantomjs。我也见过yql。 由于我是新手,请根据您的经验建议我,在这种情况下哪一个是理想的。

如果你能引用一些例子,那就太棒了。

1 个答案:

答案 0 :(得分:0)

PhantomJS可以在您提供的URL中运行javascript,如果URL包含javascript / ajax内容,则非常有用。 但YQL并没有在网站上运行javascript / ajax,但它很快就能得到一些东西