如何确定网站的语言

时间:2016-02-04 18:52:31

标签: php html-parsing

我有一个网站的网址,需要找出该网站使用的语言(无论是西班牙语,法语,意大利语等)。

该网站的顶级域名为 .com ,这根本没有帮助。我不能简单地检查字符串是否包含' .de',' .fr'或任何其他国家/地区代码。

我试图获取lang标记的html属性,但有很多网站都没有。我还发现here我可以检查元标记,如下所示:

<meta name="language" content="english">

但同样,并非所有网站都使用此标记。

您是否知道确定网站语言的其他方法?

感谢。

2 个答案:

答案 0 :(得分:1)

可悲的是,许多开发人员并不认为在他们的网页上添加语言元信息是有用的。也可能是页面上有多种语言 - 据我所知 - 强制使用<div>参数lang或其他类似的东西。以下是一些可能对您有所帮助的提示:

  1. 检查<meta name="language" content="...">代码
  2. <div>内查看并查看其中是否包含lang参数
  3. 检查菜单(如果有的话) - 这些菜单通常包含比页面主体少得多的文本
  4. 查找可以轻松解析的更小的HTML数据块,这些数据可以为您提供有关页面使用的语言的更多信息
  5. 最后开始尝试分析大文本块
  6. 实际上目前的情况真的很令人伤心,因为提供这样的信息并不困难,并且不需要花费太多额外的时间来完成它,但专业人士肯定会出现在搜索引擎上,最重要的是 - 改进为各种残疾人士提供无障碍服务。

答案 1 :(得分:0)

您可以使用谷歌翻译,微软翻译或语言层等服务进行语言文本检测。

我已经完成了这些apis文档和限制和价格,并选择了语言层,因为它是最便宜的,而且更容易使用。