我创建了两个csv文件,其中包含两种不同类型文章(新闻和社论)的术语和频率。我现在想做的是找到这些类别中最具代表性的词语。
这是两个文件的样本(新闻中包含的词和社论中包含的词):
News Editorials
word count word count
leaves 2 raging 4
raging 1 war 6
aliment 1 attack 1
interpretation 1 terrorism 1
revolt 1 knew 1
knew 4 actor 2
cuisine 1 revolt 7
为此,我想减去两个csv文件中出现的单词的频率。如果值为正,则将进入包含子列表列表中最具代表性的单词的新csv文件,而如果值为负,则将成为表示minuend的新csv文件的一部分。
我一步一步走。所以我要做的第一件事就是选择"字"第一个文件中的列,并将其与" word"进行比较第二个文件中的列,所以我可以开始计算减法,以防有相同的术语。但我不知道如何处理它。
这是代码:
import csv
with open("words_news.csv", "r") as f, open("words_generic.csv","r") as g, open("news_values","w")as v, open("generic_values","w" as r:
reader= csv.reader(f, delimiter=" ")
reader_generic=csv.reader(g, delimiter=" ")
writer = csv.writer(v, delimiter=" ")
writer = csv.writer(r, delimiter=" ")
for row in reader:
print(row[0])
这是输出:
word
leaves
raging
aliment
interpretation