我正在进行网页语言检测,并设法通过我开发的其他中间件检索页面内容。因为内容位置没有标准化。但是,我不知道如何检测我尝试使用lang和xml:lang标签的语言,但是它们没有达到我预期的效率,因为我看到一些网站的语言不同于标签中指定的语言,任何帮助将不胜感激? (环境java蚀)
答案 0 :(得分:1)
这是nlp中的经典问题,并给出了很好的预测。这篇文章看起来与此类似:link并且有一些很好的答案。 我不熟悉那里提到的解决方案,但我确实使用了Apache Tika,这是一个很好的开源。希望有所帮助..