使用Cheerio.js抓取时,为什么要翻译IMDb标题

时间:2019-03-29 16:55:29

标签: javascript node.js web-scraping cheerio

我想使用cheerio抓取IMDb。尝试获取标题时,结果被翻译成当地语言(斯洛文尼亚语)。

我正在使用Node.js(8.11.4),TypeScript(3.3.3333)和Cheerio(1.0.0-rc.2)。刮除网站的任何其他部分时,我无法复制相同的问题。

例如,当使用选择器#title-overview-widget > div.vital > div.title_block > div > div.titleBar > div.title_wrapper > h1时,结果将被翻译,选择器import * as cheerio from 'cheerio'; const axios = require('axios'); const sampleImdb = { sampleImdbMovie: 'http://www.imdb.com/title/tt1229340/' }; axios.get(sampleImdb.sampleImdbMovie) .then((response: any) => { const loadMovie = cheerio.load(response.data); console.log(loadMovie('#title-overview-widget > div.vital > div.title_block > div > div.titleBar > div.title_wrapper > h1').text()); }) .catch((reason: any) => { console.log(`For some reason, it didn't work: ${reason}`); }); 直接指向标题,即使我将节点上移,我仍然可以获得翻译后的标题,但是现在还有原始标题加上评分,持续时间,类型和发行日期。

这是我当前正在使用的代码

Anchorman 2: The Legend Continues (2013)

给出的URL应该指向Jebes novice (2013),但是却显示import imageio as io try: imag = io.imread("http://static.booking.com/images/hotel/org/591/59160587.jpg") except HTTPError as e: print("whatever")

感谢您的帮助。

0 个答案:

没有答案