我正在使用Puppeteer库从网页中抓取一些数据,但有时会返回奇怪的字符。我已经设置了如下浏览器和页面选项。怪异的部分并非总是会发生。可能是什么原因造成的?
例如,我得到了这个“چایخونه”而不是“ Tea Room”。
//I set these options for the headless browser
args: [
"--no-sandbox",
"--disable-notifications",
"--disable-dev-shm-usage",
"--lang=en-US,en-GB,en"
]
//I set also http 'Accept-Language' header like this way
await page.setExtraHTTPHeaders({
'Accept-Language': 'en-US'
});
// the function grabbing text from an html element
grabElementText(element) {
if (element) {
return element._page.evaluate(el => el.innerText, element);
}
}