我有一个我从中导入数据的csv文件。我正在尝试创建两篇文章中使用的单词列表以及它们使用了多少次。我正在运行一个循环来获取包含两篇论文的csv文件的每一行,并且输出在两篇论文之间发布组合字数。但是,我有数百行,每篇都有两篇论文。我希望有一个列表,其中包含所有文章中的所有单词和单词计数。
import textmining
import csv
with open('2011ShortAnswers.csv', 'rb') as csvfile:
data = csv.reader(csvfile, delimiter=",")
for row in data:
doc1 = row[3]
doc2 = row[4]
tdm = textmining.TermDocumentMatrix()
tdm.add_doc(doc1)
tdm.add_doc(doc2)
for row in tdm.rows(cutoff=1):
print row
答案 0 :(得分:0)
尝试使用字典,您可以随时增加每个单词:
word_count_dictionary = {}
for word in row:
if word not in word_count_dictionary.keys():
word_count_dictionary[word] = 1
else:
word_count_dictionary[word] += 1
然后,您可以遍历这些键以形成所需的列表:
word_count_list = [(word,word_count_dictionary[word]) for word in word_count_dictionary.keys()]