我正在机器学习中进行功能选择,我想检测 happyyyyyyyyy , gooood , loooooooove 等字样并将其替换为快乐,善良,爱。我尝试使用正则表达式替换连续重复的字母与其中一个相同,但如果我这样做,与 looooooooove - >工作正常喜欢和失败 goooooood - >神。我收集了一份英文单词列表,如 book , cool ,令人毛骨悚然, breeze 等,但这个列表不是足够我的数据集。我需要继续参考,因为收集单词列表非常耗时。谢谢你的回复。
答案 0 :(得分:0)
要获得参考,请使用正则表达式(.)\1+
使用grep
之类的内容来匹配单词列表中的单词(请查看Dictionary text file以获得一个好的起点)。
你应该得到一个包含连续字母的单词列表,这样你就可以参考了。