使用Reg.Ex进行Python标记化

时间:2018-12-13 00:05:44

标签: python regex

我目前正在通过正则表达式(不允许使用nltk)进行令牌化。我试图自己生成代码,但结果很差。基本上从像这样的文本中: 布朗先生打开门说道。 笑着说:“我简直不敢相信! 见!”“

输出应如下所示: ['先生','布朗','打开','','门','和','说', “与”,“ a”,“微笑”,“,”,“ I”,“ ca”,“ n't”,“ 相信它 ' , ' ! ','It',''s','a','joy','to' , ' 再见 ' , ' ! ','“']

有一些要点:

  1. 缩写“ Mr。”,“ Mrs。”,“ Ms。”和“ “ Dr.”不应获得自己的令牌
  2. 约束应被视为两个令牌。单词部分“ n't”,“’ll” “’d”,“’ve”,“’m”和“’re”获得自己的令牌
  3. 所有格(即“约翰的”)应被视为两个令牌,第二个 令牌始于撇号。

那是我的代码,没有给我任何结果。

string = re.compile (r'[n][\w]+|[\w]+(?!')(?:[A-Za-mo-z](?='))?|(?<=\s)[\w](?=)|[^\s\w'][A-Z]?\w+|[;.,!?:]|\')

0 个答案:

没有答案