我想使用cheerio
抓取IMDb。尝试获取标题时,结果被翻译成当地语言(斯洛文尼亚语)。
我正在使用Node.js(8.11.4),TypeScript(3.3.3333)和Cheerio(1.0.0-rc.2)。刮除网站的任何其他部分时,我无法复制相同的问题。
例如,当使用选择器#title-overview-widget > div.vital > div.title_block > div > div.titleBar > div.title_wrapper > h1
时,结果将被翻译,选择器import * as cheerio from 'cheerio';
const axios = require('axios');
const sampleImdb = {
sampleImdbMovie: 'http://www.imdb.com/title/tt1229340/'
};
axios.get(sampleImdb.sampleImdbMovie)
.then((response: any) => {
const loadMovie = cheerio.load(response.data);
console.log(loadMovie('#title-overview-widget > div.vital > div.title_block > div > div.titleBar > div.title_wrapper > h1').text());
})
.catch((reason: any) => {
console.log(`For some reason, it didn't work: ${reason}`);
});
直接指向标题,即使我将节点上移,我仍然可以获得翻译后的标题,但是现在还有原始标题加上评分,持续时间,类型和发行日期。
这是我当前正在使用的代码
Anchorman 2: The Legend Continues (2013)
给出的URL应该指向Jebes novice (2013)
,但是却显示import imageio as io
try:
imag = io.imread("http://static.booking.com/images/hotel/org/591/59160587.jpg")
except HTTPError as e:
print("whatever")
。
感谢您的帮助。