检测来自推文的连续重复字母

时间:2015-01-27 03:36:21

标签: machine-learning feature-selection

我正在机器学习中进行功能选择,我想检测 happyyyyyyyyy gooood loooooooove 等字样并将其替换为快乐,善良,爱。我尝试使用正则表达式替换连续重复的字母与其中一个相同,但如果我这样做,与 looooooooove - >工作正常喜欢和失败 goooooood - >神。我收集了一份英文单词列表,如 book cool 令人毛骨悚然 breeze 等,但这个列表不是足够我的数据集。我需要继续参考,因为收集单词列表非常耗时。谢谢你的回复。

1 个答案:

答案 0 :(得分:0)

要获得参考,请使用正则表达式(.)\1+  使用grep之类的内容来匹配单词列表中的单词(请查看Dictionary text file以获得一个好的起点)。

你应该得到一个包含连续字母的单词列表,这样你就可以参考了。