我在python中使用pyenchant进行拼写检查。我的代码适用于英语,但现在我想让它对其他语言也是通用的。为此,首先我需要确认某个特定单词是否属于所选语言。例如,tree
可以是英语单词,也可以不是英语单词,即该单词中的所有字符都属于english
,因此它可以是有效的英语单词。我可以使用python的isalpha
函数来检查它对英语的归属感。
isalpha
将为tree's
返回false,因为'
不是英文字符。
在这种情况下,我将从任何不在英语词典中的字符中分词。为此,我使用下面的代码:
import enchant
d = enchant.request_dict("en_US")
word = "tree's"
for a in word:
print a
我将再次对每个字符使用isalpha
函数,并在函数返回false时拆分。
不幸的是,我没有为其他语言获得与isalpha
类似的任何功能。其次,如果我使用上面的代码用于其他语言,那么它在输出中打印奇数值。例如,如果我想为hindi
语言运行它,
# coding: utf-8
import enchant
d = enchant.request_dict("hi_IN")
word = "अभिमन्यु"
for a in word:
print a
此代码的输出在每行打印?
。
我有两个问题要问,
1)阅读英语以外语言字符的正确方法是什么?
2)除英语以外的语言是否有isalpha
的替代功能?