我正在尝试抓取传递给scrape函数的任何网页,但是无论在page.goto()中设置的超时如何,我都会收到超时错误,如果设置为0,则应用程序将一直等待。 / p>
const express = require('express');
const cors = require('cors');
const MYPORT = process.env.PORT || 4001;
const app = express();
const puppeteer = require('puppeteer');
app.use(express.json());
app.use(cors());
const scrape = async (url) => {
var body;
try {
const browser = await puppeteer.launch({
headless: true,
args: ['--no-sandbox'],
timeout: 0
});
console.log('Browser launched');
const page = await browser.newPage();
console.log('Page opened');
await page.goto(url, { waitUntil: 'load', timeout: 3 * 60000 });
await page.waitForSelector('body', {waitUntil: 'load'})
console.log('Link opened');
await page.waitForNavigation({waitUntil: 'networkidle2', timeout: 3 * 60000});
page.$eval('html', bdy => {
console.log(bdy);
body = bdy.innerHTML;
});
browser.close();
return body;
} catch (err) {
console.log(err);
}
};
scrape('http://google.com');
请,我在做什么错了?
我正在WSL(Linux的Windows子系统)上使用Ubuntu 18.04
答案 0 :(得分:0)
您的脚本的超时等待时间有些复杂。我建议进行以下更改:
headless: false
,以便可以在UI上查看出了什么问题,可以打开浏览器控制台等。waitForSelector
-s完成所需操作之前,请不要设置超时。我从您的脚本中删除了它们。waitUntil: 'domcontentloaded'
而不是load
或最严格的{{1} }!在文档中查看它们之间的确切区别是什么:[link] networkidle2
。这就是脚本失败的主要原因:waitForNavigation
出现在DOM中后,您要求伪造者等到导航结束,但此时您没有导航:您已经在页面上了。记住:
<body>
解析页面何时导航到新URL或重新加载。当您运行将间接导致页面导航的代码时,它很有用。 [source]
page.waitForNavigation
缺乏异步性,尽管它应该始终保持异步。无论如何,page.eval$
中的innerHTML
可以使用<body>
来更简单地检索。await page.evaluate(el => el.innerHTML, await page.$('body'))