我正在使用cheeriojs抓取网站,我需要针对多个url参数发出很多请求。
最小代码:
const rp = require('request-promise');
const cheerio = require('cheerio');
[1, 2, 3].forEach(element => {
url = `https://stackoverflow.com/q=${element}`
rp(url)
.then((html) => {
// Logic code
})
})
我想在每个请求之间设置一个超时,我们如何定义它?
答案 0 :(得分:3)
我认为最易读的方法是使用异步功能和承诺承诺的超时时间。
function sleep(millis) {
return new Promise(resolve => setTimeout(resolve, millis));
}
async function process(list) {
for (const item of list) {
const html = await rp(`https://stackoverflow.com/q=${item}`);
... do stuff
await sleep(1000);
}
}
答案 1 :(得分:1)
当前,所有请求基本上都是并行进行的。您必须先按顺序执行它们,然后才能在它们之间添加延迟。您可以通过链接承诺来实现。使用.reduce
很容易做到:
const rp = require('request-promise');
const cheerio = require('cheerio');
[1, 2, 3].reduce((p, element) => {
url = `https://stackoverflow.com/q=${element}`
return p
.then(() => rp(url))
.then((html) => {
// Logic code
});
}, Promise.resolve())
这将建立一条等效于
的链rp(url1)
.then(html => ...)
.then(() => rp(url1))
.then(html => ...)
.then(() => rp(url2))
.then(html => ...)
要添加延迟,我们定义了一个函数,该函数返回一个函数,该函数返回通过setTimeout
在x毫秒后解析的promise:
function wait(x) {
return () => new Promise(resolve => setTimeout(resolve, x));
}
现在,我们可以将其添加到链中了(我将rp
替换为此处可运行的内容):
function wait(x) {
return () => new Promise(resolve => setTimeout(resolve, x));
}
[1, 2, 3].reduce((p, element) => {
const url = `https://stackoverflow.com/q=${element}`
return p
.then(() => Promise.resolve(url))
.then((html) => {
console.log(`Fetched ${html}`);
})
.then(wait(2000));
}, Promise.resolve())
答案 2 :(得分:0)
您可以将forEach
的索引参数用作超时延迟的乘数
const delay = 1000
[1, 2, 3].forEach((element, i) => {
url = `https://stackoverflow.com/q=${element}`
setTimeout(() => {
rp(url)
.then((html) => {
// Logic code
})
}, i * delay);
})
答案 3 :(得分:-1)
如果要使用forEach
语句,请使用我的第一个代码。如果对您而言没有关系,请参阅基于@JFord的答案的第二个(简单的)工作示例。
RunKit demo with for item of list
注意:该代码已修复,可以正常工作
forEach
示例const rp = require('request-promise')
const cheerio = require('cheerio')
function sleep(ms) {
return new Promise(resolve => setTimeout(resolve, ms))
}
async function forEachAsync(arr, fn) {
for (var i = 0; i < arr.length; i++) {
await fn(arr[i])
}
}
async function fetchUrls() {
await forEachAsync([55505362, 55505363, 55505364], async element => {
await sleep(2000)
console.log('been 2000 seconds')
var url = `https://stackoverflow.com/questions/${element}`
await rp(url)
.then(html => {
console.log(html)
})
.catch(function(e) {
console.log(e.message) // "oh, no!"
})
})
}
fetchUrls()
for item of list
示例这是一个有效的示例,基于@JFord的回答,但还会处理错误。
const rp = require('request-promise')
const cheerio = require('cheerio')
function sleep(ms) {
return new Promise(resolve => setTimeout(resolve, ms))
}
async function fetchUrls(list) {
for (const item of list) {
const html = await rp(`https://stackoverflow.com/q=${item}`).catch(function(e) {
console.log(e.message) // There's an error
})
console.log("html: " + html)
await sleep(2000);
}
}
fetchUrls([1,2,3])