处理csv文档中的文本

时间:2017-06-12 01:23:12

标签: python csv text-processing python-textprocessing

我开始对一些csv文档进行文本分析。但是我的csv文件有几个句子,几个字很少,我不感兴趣,所以我想创建一个python代码,分析这个csv文件,只留下包含超过5个单词的句子进行分析,但是我不知道从哪里开始制作我的代码并想要一些帮助。

示例:

输入文件 enter image description here

输出文件 enter image description here

2 个答案:

答案 0 :(得分:2)

这应该有效(使用Python 3.5):

lines = []
finalLines = []
toRemove = ['a', 'in', 'the']

with open('export.csv') as f:
    lines.append(f.readlines())

for line in lines:
    temp = list(csv.reader(line))
    sentence = ''
    for word in temp[0][0].split():
        if (word not in toRemove):
            sentence = sentence + ' ' + word
    finalLines.append(sentence.strip())

print(finalLines)

答案 1 :(得分:1)

如果您使用pandas(广泛用于数据操作的python库),您可以轻松高效地完成工作。以下是官方熊猫文档的链接:

http://pandas.pydata.org/pandas-docs/stable/

注意:Pandas具有读取csv文件的内置函数。你可以使用' skiprow'您不想要的跳过参数或应用正则表达式来过滤文本。