如何在Python中删除一个单词的句子

时间:2019-02-25 06:28:16

标签: python numpy text nltk

我目前正在处理一个包含10000多个新闻的数据集,并且我想删除仅包含一个单词的句子。我搜索了有关nltk和textcleaner的信息,但是无法删除仅包含一个单词的句子。

例如,说: 输入:我想删除一个单词的句子。好的。好吧,让我们这样做。 输出:我想删除一个单词的句子。开始吧。

代码是:

import textcleaner as tc
import nltk
import numpy as np

datafile = np.genfromtxt("f12filtered.txt", encoding='utf-8', delimiter=".")

data = tc.document(datafile)
data.remove_stpwrds() 

1 个答案:

答案 0 :(得分:0)

可以使用定界符'。'将数据分成句子列表。然后,如果句子中只有一个单词,我们可以删除该句子。数据现在将是一个列表,如果您想使用全文本或直接使用它,则可以加入列表。您可以使用以下代码执行此操作:

    data = data.split('.')
    for sent in data:
        sent = sent.split(' ')
        if len(sent) < 2:
            data.remove((' ').join(sent))

要连接数据以形成单个字符串:

    data = ('.').join(data)