我开始对一些csv文档进行文本分析。但是我的csv文件有几个句子,几个字很少,我不感兴趣,所以我想创建一个python代码,分析这个csv文件,只留下包含超过5个单词的句子进行分析,但是我不知道从哪里开始制作我的代码并想要一些帮助。
示例:
答案 0 :(得分:2)
这应该有效(使用Python 3.5):
lines = []
finalLines = []
toRemove = ['a', 'in', 'the']
with open('export.csv') as f:
lines.append(f.readlines())
for line in lines:
temp = list(csv.reader(line))
sentence = ''
for word in temp[0][0].split():
if (word not in toRemove):
sentence = sentence + ' ' + word
finalLines.append(sentence.strip())
print(finalLines)
答案 1 :(得分:1)
如果您使用pandas(广泛用于数据操作的python库),您可以轻松高效地完成工作。以下是官方熊猫文档的链接:
http://pandas.pydata.org/pandas-docs/stable/
注意:Pandas具有读取csv文件的内置函数。你可以使用' skiprow'您不想要的跳过参数或应用正则表达式来过滤文本。