我有数百万个句子片段,我正在尝试确定每个句子是英语,法语,日语还是Germ。是否有python程序来执行此操作?
s1 = 'This is where lies a person'
s2 = 'ボウリング・フォー・コロンバイン(字幕版)'
s3 = 'Ep. 2448 : épisode du 12 mars 2014 (Plus belle la vie, Saison 10, Vol. 6)
language_of_string(s1) ==> EN
language_of_string(s2) ==> JP
language_of_string(s3) ==> FR
答案 0 :(得分:2)
使用源代码尝试langid https://github.com/saffsd/langid.py
>>> import langid
>>> langid.classify("This is a test")
('en', 0.99999999099035441)
答案 1 :(得分:1)
s1 = 'This is where lies a person'
s2 = 'ボウリング・フォー・コロンバイン(字幕版)'
s3 = 'Ep. 2448 : épisode du 12 mars 2014 (Plus belle la vie, Saison 10, Vol. 6)'
import guess_language
print guess_language.guessLanguage(s1)
print guess_language.guessLanguage(s2)
print guess_language.guessLanguage(s3)
en
ja
fr