Python方式检测语言ISO代码

时间:2014-11-08 23:58:04

标签: python nlp

我有数百万个句子片段,我正在尝试确定每个句子是英语,法语,日语还是Germ。是否有python程序来执行此操作?

s1 = 'This is where lies a person'
s2 = 'ボウリング・フォー・コロンバイン(字幕版)'
s3 = 'Ep. 2448 : épisode du 12 mars 2014 (Plus belle la vie, Saison 10, Vol. 6)

language_of_string(s1) ==> EN
language_of_string(s2) ==> JP
language_of_string(s3) ==> FR

2 个答案:

答案 0 :(得分:2)

使用源代码尝试langid https://github.com/saffsd/langid.py

>>> import langid
>>> langid.classify("This is a test")
('en', 0.99999999099035441)

答案 1 :(得分:1)

guess_language

s1 = 'This is where lies a person'
s2 = 'ボウリング・フォー・コロンバイン(字幕版)'
s3 = 'Ep. 2448 : épisode du 12 mars 2014 (Plus belle la vie, Saison 10, Vol. 6)'

import guess_language
print guess_language.guessLanguage(s1)
print guess_language.guessLanguage(s2)
print guess_language.guessLanguage(s3)
en
ja
fr