如何分割像"可以&#t; t,don&#t;#34;进入"不能"在python中

时间:2017-03-10 06:29:40

标签: python-2.7 nlp nltk

我需要分割像_so" {can&#t; t,don&t; t,won&#t; t}"进入" {不能,不会,不会}"在python中。 这里的问题是,例如" can' t"可以通过检查后缀" n'#34;来检测,所以我们可以不用替换n,但我们怎样才能改变" ca" to" can"如 当我们分开时," can&#t; t"它应该转换为"不能"

1 个答案:

答案 0 :(得分:1)

由于英语规则很大且有时不一致,你最好的选择可能就是设置完整的单词地图,而不是试图弄清楚哪些字母由撇号表示。

换句话说,一个字典的值如下:

can't    -> can not
don't    -> do not
won't    -> will not
:
oughtn't -> ought not