当前,我正在从事项目“ Twitter Sentimental Analysis”。我遇到了一个问题,我需要还原包含重复字母的单词。例如,将“ coooooool”替换为“ cool”。我曾考虑过使用正则表达式,但是要还原的单词数量更多。您能提供一种解决我的问题的方法吗?
答案 0 :(得分:0)
我建议您寻找类似pyenchant
的库,但是对于您的确切要求,这是一个代码段。它不会完全按照您的意图进行操作,但是会将所有多次出现的字符转换为单个字符。那么您可以使用字典来替换/忽略正确的单词。
clean_words=[]
for w in words:
w = re.sub(r'[^\w\s]|(.)(?=\1)', '', w)
clean_words.append(w)
正如我在looooove
变成love
时提到的,它也会使cool
到col
。对于像cool这样的单词,您将需要查找或字典来忽略处理。