如何检测网页的语言

时间:2015-03-13 23:49:35

标签: python translation

是否有meta标签提供网页的原始语言,或者我可以使用哪些库来检测它?例如:

detect_language('https://play.google.com/store/movies/details?id=lzLX-xKfQhE')
==> DE (German)

detect_language('https://itunes.apple.com/jp/movie/gon-garu-zi-mu-ban/id944521490?l=en')
==> JP (Japanese)

1 个答案:

答案 0 :(得分:2)

这两个页​​面的语言可以说是英语!页面上的大部分内容都是其他语言,但页面结构(标签,链接等)是英文,每页的元标记都符合此评估。

从Google Play页面:

<html lang="en_US">
      ^^^^^^^^^^^^

从iTunes Store页面:

<html prefix="og: http://ogp.me/ns#" xmlns="http://www.apple.com/itms/" lang="en">
                                                                        ^^^^^^^^^

存在一些可以尝试执行语言检测的API。其中一个(商业)例子是Google Translate's Detect Language call。但是,这些API会对这些页面产生什么影响呢?有一个强烈的论点,他们都是英国人。