Question

我需要对包含数字和字母数字字符的字符串进行脱字符处理。示例：

'strawberries1234!@ apples123@'

我还需要保留那些特殊字符和数字。因此，上面示例的输出为

'strawberry1234!@ apple123@'

我需要在大型数据集上执行此操作，因此代码需要尽可能高效。

谢谢。

Answer 1

严重的是，这似乎很简单，不需要进一步阐述任务。使用正则表达式可以删除所有基于字符的特殊字符序列，这意味着您不仅可以简单地sub（）它们，还可以找到索引。使用索引提取剩余的字符串，这将是残留的英语单词。使之成为词法（词法化是删除英语后缀的过程，这意味着要删除字符串右端的字符串元素。（在其他语言中，您可以使用encouter中缀（xx-y-xx）和绕行表示（y1- xx-y2），这可能需要更复杂的字符串操作。此后，只需再次将带有特殊字符的子字符串连接在一起，结果就得到了lemmatizing。

如何对包含数字和特殊字符的字符串进行词法化？

1 个答案: