是否有meta
标签提供网页的原始语言,或者我可以使用哪些库来检测它?例如:
detect_language('https://play.google.com/store/movies/details?id=lzLX-xKfQhE')
==> DE (German)
detect_language('https://itunes.apple.com/jp/movie/gon-garu-zi-mu-ban/id944521490?l=en')
==> JP (Japanese)
答案 0 :(得分:2)
这两个页面的语言可以说是英语!页面上的大部分内容都是其他语言,但页面结构(标签,链接等)是英文,每页的元标记都符合此评估。
从Google Play页面:
<html lang="en_US">
^^^^^^^^^^^^
从iTunes Store页面:
<html prefix="og: http://ogp.me/ns#" xmlns="http://www.apple.com/itms/" lang="en">
^^^^^^^^^
存在一些可以尝试执行语言检测的API。其中一个(商业)例子是Google Translate's Detect Language call。但是,这些API会对这些页面产生什么影响呢?有一个强烈的论点,他们都是英国人。