Apache Tika语言检测似乎无法正常工作

时间:2019-08-19 22:54:41

标签: python apache-tika

我正在加载一个法语文本文件,其句子为“ Bonjour,çava?”使用Python的Tika语言库,但发现的是“ ca”而不是“ fr”。

 >>> from tika import language
 >>> language.from_file('my/path/test')
 'ca'

我目前在pip install tika之后立即使用它,因此使用默认设置。

1 个答案:

答案 0 :(得分:1)

加泰罗尼亚语与法语非常接近,两种语言中的该短语相同。身份证明是正确的;到目前为止,Tika的状况还不错。