Question

当前，我正在从事项目“ Twitter Sentimental Analysis”。我遇到了一个问题，我需要还原包含重复字母的单词。例如，将“ coooooool”替换为“ cool”。我曾考虑过使用正则表达式，但是要还原的单词数量更多。您能提供一种解决我的问题的方法吗？

Answer 1

我建议您寻找类似pyenchant的库，但是对于您的确切要求，这是一个代码段。它不会完全按照您的意图进行操作，但是会将所有多次出现的字符转换为单个字符。那么您可以使用字典来替换/忽略正确的单词。

clean_words=[]    
for w in words:
    w = re.sub(r'[^\w\s]|(.)(?=\1)', '', w)
    clean_words.append(w)

正如我在looooove变成love时提到的，它也会使cool到col。对于像cool这样的单词，您将需要查找或字典来忽略处理。