如何对包含数字和特殊字符的字符串进行词法化?

时间:2019-11-08 16:32:13

标签: python-3.x nlp lemmatization

我需要对包含数字和字母数字字符的字符串进行脱字符处理。示例:

'strawberries1234!@ apples123@'

我还需要保留那些特殊字符和数字。因此,上面示例的输出为

'strawberry1234!@ apple123@'

我需要在大型数据集上执行此操作,因此代码需要尽可能高效。

谢谢。

1 个答案:

答案 0 :(得分:0)

严重的是,这似乎很简单,不需要进一步阐述任务。 使用正则表达式可以删除所有基于字符的特殊字符序列,这意味着您不仅可以简单地sub()它们,还可以找到索引。使用索引提取剩余的字符串,这将是残留的英语单词。使之成为词法(词法化是删除英语后缀的过程,这意味着要删除字符串右端的字符串元素。(在其他语言中,您可以使用encouter中缀(xx-y-xx)和绕行表示(y1- xx-y2),这可能需要更复杂的字符串操作。此后,只需再次将带有特殊字符的子字符串连接在一起,结果就得到了lemmatizing。