在python中删除不重要的单词(收缩,连词,停用词)

时间:2019-08-22 15:00:15

标签: python python-3.x

我想从文本文件中删除缩略语,不一定是因为撇号,但是在我的情况下,我不需要这些类型的单词。

我知道您可以使用紧缩包将它们扩展为完整的单词,

import contractions

fixed_conts = contractions.fix(text)

但是,这不能删除它们。我知道我可以列出一个庞大的清单,然后用蛮力将其列出来,但我只是想知道是否还有更优雅的东西,例如任何包装建议

基本上,我想要的示例输出是:

不是这个

He isn't scrumming with us today - > He is not scrumming with us today 

但是相反

He scrumming today

这是一个愚蠢的示例,但基本上是为了帮助查找唯一的单词,这是较大功能的一部分。

1 个答案:

答案 0 :(得分:-1)

您可以创建一个包含所有收缩的列表,并创建一个新文本,该列表中没有任何单词

contractions = ["you're", "aren't", ...]
cleaned_up = [word for word in text if word not in contractions]

cleaned_up = " ".join(cleaned_up)