标签: java language-detection
我正在开发一个项目,其中有pdf,内容是英语和西班牙语,我只对它的英文部分感兴趣并将其保存到Database.I我正在使用Apache PDF框从中提取文本。我怎样才能避免使用西班牙语内容并获得只有英文部分的文本。我尝试了一些类似Apache Tika和https://code.google.com/p/language-detection/的库,但在某些情况下它们没有给出正确的结果。任何人都可以提供一些可靠的解决方案或者任何其他方式来达到要求。 在此先感谢。