从字符串NLP中删除英语“废话”单词(例如“ um”,“ uh”)的策略

时间:2019-11-08 22:27:57

标签: python nlp

是否有一个好的python库,专门包含某种常见的英语“扔掉单词”的字典,例如“ um”,“ uh”,我可以用它们来清理NLP文本?

同样,我的同事开始列出making语/ off语单词列表。我希望可以找到所有这些的python库。他下面的js代码确实可以将“ nope”和“ naw”变成“ no”

  txt = txt.replace(
        /\b(yeah|ya|yep|yup|yes)\b/g, "yes"
    ).replace(
        /\b(no|naw|nope)\b/g, "no"
    ).replace(
        /\b([ah]+|uh-huh|uh+|um+|mhm+|huh+|oh)\b/g, ""
    ).replace(
        /\b(im|i'm|i am)\b/g, "im"
    ).replace(
        /\b(gotta|gonna|got to|going to|wanna|want to)\b/g, "yyxxa"
    ).replace(
        /\b(ok|okay|k)\b/g, "okay"
    );

1 个答案:

答案 0 :(得分:0)