检查站点的本地版本是否已完全翻译的工具(用于持续集成)

时间:2013-01-11 23:35:28

标签: web-services localization translation web-crawler

我正在开展一个项目,在该项目中,我们为另一个国家(不是英语)设计了现有网站的本地化版本(用英语写成)。业务要求是“所有可能和不可能的情况都没有英文文本”。

是否有人知道是否有可以检查网站是否完全翻译的检查软件/服务,即检查其中没有英文文本。

我认为有些网站可以查看损坏的链接,HTML有效性等,我需要http://validator.w3.org/checklink这样的内容,但是要检查网站的所有页面上都没有英文文本。

我认为需要这种方式的原因是:
1.所有国家都有很多共同的代码(包括后端和前端) 2.如果有人向公共代码提交任何内容,我需要确保这不会导致本地化版本中的英文文本问题。
3.从商业角度来看,最好是网站不支持某些功能,而不是显示英文文本(法律事务) 4.前端和后端的代码变化很多 5.有很多文件会影响客户端屏幕上的文本。不幸的是,不只是一个有消息的人。一些消息来自后端,但大多数都在前端 6.由于所有这些事实,目前有人手动填写所有表格并亲眼观看,这是在每次部署之前......

2 个答案:

答案 0 :(得分:1)

我认为你是从错误的方向接近问题。您正在寻找能够检测到任何文本是否为英语的算法或网络浏览器?我不知道,但我怀疑这样的事情是否存在。

如果您翻译了网站,则可以完全访问代码库和/或翻译文本,对吧?难道你不能在像Notepad ++这样的比较工具中打开英文和非英文字符串文件(.resx或者你正在使用的任何东西)来检查差异以查看是否有任何丢失的字符串?并检查源代码并验证可以输出用户可显示文本的所有部分都使用meta:resourceKey属性(或您正在使用的任何属性)。

答案 1 :(得分:1)

如果您希望采用爬行的方式,我不知道现有的抓取工具会执行此操作,但这听起来像是两个简单问题的组合:

  1. 查找网络抓取工具的现有开源代码应该很简单
  2. 如果文本可以使用的语言数量有限,则通过n-gram分析识别语言是微不足道的。
  3. 唯一困难的部分是确保分析仪始终具有相当大的文本块。你可以逐段提取东西。对于表单,您可能需要组合多个表单标签的文本。