从Web服务器逐个请求网页列表的最简单方法是什么?

时间:2013-08-28 15:01:34

标签: node.js automation web-crawler

给定一个URL列表,如何实现以下自动化任务(假设windows和ubuntu是可用的O / Ses)?是否有现成的工具类型可以使实现更容易或开箱即用?

log in with already-known credentials
for each specified url 
  request page from server
  wait for page to be returned (no specific max time limit)
  if request times out, try again (try x times)
  if server replies, or x attempts failed, request next url
end for each
// Note: this is intentionally *not* asynchronous to be nice to the web-server.

背景:我正在实现一个工作者工具,它将从Web服务器请求页面,因此这些页面需要紧急通过的数据将被缓存以供日后使用。虽然工作人员可能关心HTML状态代码,但工作人员并不关心结果页面的内容。我已经考虑了幻像/ casper /节点设置,但我对这项技术并不是很熟悉,也不想重新发明轮子(即使它很有趣)。

1 个答案:

答案 0 :(得分:1)

您可以使用http模块轻松请求页面。

Here's an example.

有些人更喜欢npm中提供的请求模块。

Here's a link to the github page

如果您需要更多,可以使用phantomjs。

Here's a link to the github page for bridging node and phantom

但是,您还可以查找用于发出wgetcurl等请求的简单cli命令。